以ChatGPT、DeepSeek为代表的大语言模型(简称"大模型")因其基于大规模文本数据预训练,在自然语言理解、文本补全、多语种翻译、自动摘要和文本生成等自然语言处理任务中表现出接近甚至优于人类的能力。此外,大模型在诸如图像理解、声音复刻、视频生成等非语言理解领域也展现出广阔的应用前景。
研究发现,大模型具备处理地理描述文本的能力,可以回答地理相关的非推理性问题,也能够根据语言描述生成地图。进一步研究发现,大模型输出结果会因为空间对象的输入方式和提示方法的不同产生波动,在部分任务中波动高达40%。现有大模型在自然语言理解能力逐渐趋同,但对空间问题的理解能力呈现较大差异。
大模型是否具有空间认知能力?如何量化不同大模型在空间认知能力上的差异?成为迫切需要解决的研究问题。
从空间场景中的空间对象类型、空间关系和Prompt策略三个维度构建测试体系
图1 SRT4LLM测试架构
涵盖拓扑关系、方位关系和距离关系三类基本空间关系,构成所有复杂空间场景的基础。
包括空间对象的输入方式、空间对象类型的组合方式和空间场景复杂度三个维度,遵循从简单到复杂的设计原则。
采用三种复杂度渐进的方法,充分挖掘不同大模型的空间认知能力,评估其在不同提示策略下的表现。
设计三种提示工程策略和标准化测试流程,评估大语言模型的空间认知能力
作为基础的测试,在无额外引导的情况下,主要衡量大模型预训练语料库中空间关系的存量及对空间关系的默认推理能力。
基于思维链(Chain of Thought, CoT)技术,通过要求大模型在输出最终答案之前,显式输出逐步的推理步骤来增强大模型的推理。简化了思维链的复杂推理过程,针对空间问题加入关键推理要点。
在SP的基础上引入Few-shot策略,每次测试前提供2个推理示例,以指导大模型生成更优输出。该策略能够强化大模型对空间关系的理解,并减少错误分类。
图2 标准思维链prompt模板
图3 SRT4LLM测试流程
SRT4LLM采用3类Prompt工程策略(SP、GP、EP),针对3类空间对象(圆形、矩形、多边形)进行测试。每类空间对象包含24组场景,对一种空间关系进行24×3×3=216次测试,3种空间关系共进行648次提问。测试在8个大模型上分别调用API自动化执行,若测试过程中出现异常结果或因连接问题导致中断,则重启测试流程,确保数据完整性。最终,测试结果由人工统计正确分类的场景数,并计算正确率。
表1 测试大模型
大模型名称及版本 | 发布机构 | 发布时间 | 测试版本号 |
---|---|---|---|
ChatGLM3 | 智谱AI | 2023年10月27日 | ChatGLM3-6B |
ERNIE Bot | 百度 | 2023年3月16日 | ERNIE-Bot-turbo-0922 |
Gemini | 2023年12月6日 | gemini-pro | |
GPT-3.5 | OpenAI | 2022年11月30日 | gpt-3.5-turbo |
GPT-4 | OpenAI | 2023年3月15日 | gpt-4-0125-preview |
LLaMa2 | Meta AI | 2023年7月19日 | LLaMa2-13B-chat |
QWEN | 阿里云 | 2023年3月16日 | qwen-max |
SparkDesk | 科大讯飞 | 2023年5月6日 | sparkv3.5 |
分析空间场景对象几何形状、提示工程策略对大模型空间认知能力的影响
实验设计涉及不同复杂度的几何场景,包括圆形、矩形和多边形,以逐步增加推理难度。测评结果显示,8个大模型在圆形、矩形和多边形空间场景的3种空间关系判断准确率分别为35.8%、38.8%、53.0%,28.6%、39.7%、51.4%,以及32.6%、37.2%、46.5%。
整体而言,大模型在不同几何场景的表现未出现显著下降,体现了较强的适应性。从8个大模型的测试结果看,除个别大模型在3类空间对象上的准确率有明显波动外,大部分大模型在不同空间对象类型中回答准确率相对稳定,表现出较高的一致性,进一步验证了SRT4LLM能够有效运用于各类空间场景。
本研究采用3种提示工程策略:SP、GP和EP,为大模型提供不同程度的提示信息。测评结果表明,使用SP、GP和EP提示策略时,大模型在3类空间关系判断任务上的平均准确率分别为29.6%、32.3%、35.4%,31.0%、35.8%、47.4%以及44.3%、46.6%、57.3%。
从8个大模型的评估结果看,提示工程对大模型空间认知能力的表现有显著影响。随着提示的复杂性逐步增加,大部分大模型的准确率呈现上升趋势。这一结果表明,恰当的提示工程能够提升大模型的空间认知表现。同时,SRT4LLM能够有效挖掘大模型的空间认知潜力。
SRT4LLM有效测量大语言模型空间认知能力,为构建原生地理大模型提供支持