摘要
【目的】针对当前传统聚落研究缺乏结合自然语言处理的原理与方法从海量文本数据中提取文化景观基因信息的相关探索,本文提出景观基因命名实体(Traditional Settlement Landscape Genes Named Entity, TSLGNE)的概念,并以邵阳市48个传统村落为案例,采用BERT-BiLSTM-CRF深度学习模型开展TSLGNE的识别研究。
【方法】首先,结合地理实体特征与文化景观基因理论及其分类体系,提出TSLGNE的概念、分类体系与知识表达方法。其次,基于TSLGNE的分类体系与扩展BIOES标注方法,对研究案例源文本数据进行语料标注,构建了相应的语料库。随后,基于BERT-BiLSTM-CRF深度学习模型识别并提取语料数据中的TSLGNE信息。最后,通过Neo4j图数据库对获取到的TSLGNE知识进行组织与储存,并基于此对区域传统聚落及其TSLGNE进行空间特征分析。
【结果】本文模型能够有效识别文本数据中的建筑、环境、文化等12类景观基因实体信息,总体精确率、召回率、F1值相较对比模型均有提升。与BiLSTM-CRF、BERT-CRF模型相比,本模型的F1值分别提高11%与1%。特别地,本模型对于语料数据质量差且语义复杂的实体的识别效果有极大提升,如文化基因C3类实体识别的F1较对比模型分别提高了31%与5%。
【结论】此方法能够有效地对区域复杂的传统聚落文化基因特征及其关系进行空间分析处理,对今后结合GIS和数据挖掘方法分析传统聚落的重要文化特征及传统聚落知识服务等具有较好的借鉴意义。
引言
传统聚落保留着鲜明的历史文化特征与风貌,它蕴含着丰富的地理、人文、历史和文化等信息,是文化遗产的重要组成部分。城镇化与现代化的加速推进使得传统聚落正在遭到破坏甚至面临消失,对其文化遗产资源进行保护的重任迫在眉睫。近年来,我国传统聚落的数字化保护研究,如平台构建、数字旅游产品开发及活化路径探析等方面取得了丰富成果,但是,对于结合信息技术挖掘其更深层次的语义内涵及完善文化资源信息服务还需加强探索。
传统聚落文化资源内涵丰富、形式多样,其记载和保护主要通过文献档案进行相关记录。但此类记录存在检索困难、信息之间缺乏联系、难于永久性保存等不足。学术界对传统聚落的长期研究产生了海量的、多模态的、异构的数据资源。其中,大量的文本资源尚未转化为可深度利用的结构化数据,其蕴含的丰富地理、文化资源尚未被充分挖掘。因此,依托现代信息技术提取文本大数据中传统聚落的丰富信息,对其现代化信息管理与知识服务具有重要意义。
传统聚落的文化价值
我国传统聚落文化因子种类多样且数量丰富,中国地理学者结合类型学、文化基因、空间意象等理论,提出了景观基因理论。景观基因是承载着传统聚落历史文化信息的因子,对于传统聚落的形成以及识别有着关键作用。近年来,景观基因理论取得了丰富成果,其识别研究主要聚焦识别原则、识别方法、识别模式和自动识别模型等。
数字技术的应用
时空大数据与人工智能的发展使得地理信息的内涵不断扩展,同时改变了数据的获取途径与处理方式。融合大数据和计算机技术的数字人文研究从最初的基于统计学方法的词汇检索、分类统计等小规模文本数据处理,发展为涵盖文本数字化、知识挖掘、情感计算等多方面的综合性研究领域。数字人文研究的兴起为地理大数据挖掘带来了新的研究范式。
现有研究的局限性
传统聚落的景观基因实体作为一种特殊的地理信息资源,其信息丰富、特征多样且结构层次复杂,当前景观基因研究偏重于从社会文化视角分析其特征,其数字化研究多聚焦于旅游开发与保护路径等,忽视了结合知识信息方法快速地获取、处理传统聚落的丰富信息。从地理信息视角运用数据挖掘原理探究非结构化的景观基因资源向数字空间迁移的相关探索尚未有效开展。
当前传统聚落研究缺乏结合数字人文的方法对丰富因子展开深度数字化及信息服务的相关探索。传统聚落景观基因数字化的信息特征与知识表达方法尚未明确,信息识别及特征解构模型尚未构建,同时也缺乏从地理大数据与空间数据挖掘的视角探究区域传统聚落及因子之间的特征关系。
研究创新与目标
本研究将自然语言处理技术与文化景观基因理论相结合,提出了景观基因命名实体的概念,并构建了基于深度学习的识别模型,为传统聚落的数字化保护与知识服务提供了新的技术路径。主要研究目标包括:
明确景观基因文本信息数字化的内涵、特征及知识表达方法
构建面向传统聚落的BERT-BiLSTM-CRF景观基因信息识别模型
完成景观基因数据资源的数字化与知识组织,并探究传统聚落空间信息特征及关系
研究方法
景观基因命名实体的内涵
定义
景观基因实体是承载着聚落信息的、独立存在并可唯一标识的文化景观要素,可以是客观存在的,如承载着文化内涵、建筑工艺等信息的建筑;也可以是抽象存在的,如聚落内传承的风俗、宗教信仰等文化要素。景观基因命名实体(TSLGNE)是指传统聚落中世代传承并影响其景观特征形成的具体或抽象的因子的名称,如传统聚落中的建筑主体、建筑结构、聚落布局与传统文化习俗等的名称。

图1 TSLGNE的含义
语义描述 | 景观基因实体名称、概念释义 |
---|---|
空间位置 | 景观基因实体的绝对位置或相对位置 |
时间信息 | 形成的时间或年代 |
几何形态 | 点、线、面、体及形状等 |
属性特征 | 物理、化学、生物、人文、社会、经济等作用表现的特性 |
要素关系 | 景观基因要素之间相互作用关系与空间关系 |
表1 景观基因实体表达体系
景观基因命名实体分类体系
依据传统聚落景观基因识别原则、分类体系与NER标签原理,本研究建立了针对传统聚落文本数据的TSLGNE分类体系,包含三大类、十二小类(图2)。
建筑基因类(A)
包括传统聚落中的各类建筑实体、构件、装饰和材料等,如祠堂、牌坊、雕花窗、青砖等
环境基因类(B)
包括传统聚落的空间布局、自然环境要素、人文环境要素和空间关系等,如九宫格布局、风水林、古井等
文化基因类(C)
包括传统聚落的历史文化、民俗活动、宗教信仰和艺术文化等,如家族史、婚嫁习俗、祭祀活动、苗族刺绣等
图2 TSLGNE分类体系
研究区域与数据来源
研究区域
本研究以湖南省邵阳市48个传统村落为研究对象。邵阳市位于湖南省中部偏西南,地处武陵山脉与雪峰山脉交汇处,是湘西南地区重要的传统文化保存区域,拥有丰富多样的传统聚落资源。
研究区域内的传统村落类型多样,包括汉族村落、苗族村落、土家族村落等,形成了独特的多民族文化景观特征。这些村落历史悠久,保存了丰富的建筑、环境和文化要素,是研究传统聚落景观基因的理想区域。
数据来源
本研究的文本数据主要来源包括:
- 地方志文献:《邵阳市志》、《绥宁县志》等
- 政府文件:传统村落保护规划、申报材料等
- 学术论文:关于邵阳传统村落的研究论文
- 旅游介绍:官方旅游网站、旅游手册等
- 民俗记录:口述史、民间文学资料等
- 实地调研:研究团队的实地调研记录
经过数据清洗与预处理,共收集整理文本数据约50万字,涵盖了研究区域内传统村落的全面信息。

图2 邵阳市景观基因信息关系强度
景观基因知识图谱构建
基于识别提取的TSLGNE信息,本研究利用Neo4j图数据库构建了传统聚落景观基因知识图谱,实现了传统聚落景观基因知识的结构化组织与可视化表达。

知识图谱构建流程
- 从文本中提取TSLGNE实体与关系
- 对实体与关系进行规范化处理
- 构建Neo4j图数据库模式
- 导入实体与关系数据
- 优化知识图谱结构
- 实现知识图谱可视化
知识图谱统计数据
- 实体总数:3,246个
- 关系总数:5,872条
- 建筑基因类实体:1,358个
- 环境基因类实体:982个
- 文化基因类实体:906个
- 聚落间关系:428条
- 实体间关系:5,444条
传统聚落景观基因空间特征分析
基于构建的知识图谱,本研究对邵阳市传统聚落景观基因的空间分布特征及其关联关系进行了深入分析,揭示了区域传统聚落文化景观的形成机制与演变规律。
空间分布特征
研究区域内的传统聚落景观基因呈现出明显的地域聚集性和民族差异性。汉族聚落主要分布在平原和丘陵地区,建筑基因以木构架体系为主;苗族和土家族聚落多分布在山区,建筑基因以干栏式建筑为特色;聚落布局受地形和风水理念的双重影响,形成了多样化的空间格局。
关联关系分析
通过知识图谱的关系挖掘,发现建筑基因、环境基因和文化基因之间存在密切的关联。宗教信仰对建筑形式和聚落布局有显著影响;自然环境因素与建筑材料选择高度相关;历史事件与建筑装饰风格之间也存在明显的对应关系。这些关联反映了传统聚落景观形成的内在机制。
演变规律
通过对不同时期传统聚落景观基因的对比分析,揭示了其演变规律。早期聚落景观基因以自然环境适应性为主;中期逐渐融入更多文化和精神内涵;近代以来,外来文化的影响逐渐增强,传统景观基因面临保护与创新的双重挑战。
案例分析:绥宁县大园村
以绥宁县大园村为例,通过BERT-BiLSTM-CRF模型从相关文本中识别出多种景观基因实体,包括"飞山庙"(建筑主体A1)、"吊脚楼"(建筑主体A1)、"木雕花窗"(建筑装饰A3)、"半月形布局"(聚落布局B1)、"风水林"(自然环境B2)、"苗族插绣"(艺术文化C4)、"祭祀活动"(宗教信仰C3)等。
通过知识图谱分析,发现大园村的景观基因呈现出典型的苗族聚落特征,其建筑形式与地形、气候和民族文化紧密相关。"飞山庙"作为村落的精神中心,与"祭祀活动"构成了文化传承的核心。"半月形布局"既适应了山地地形,又体现了苗族的宇宙观和风水理念。这些景观基因的有机结合,形成了大园村独特的文化景观特征。
结论
本研究提出了景观基因命名实体的概念,构建了BERT-BiLSTM-CRF深度学习模型用于传统聚落文本数据中的景观基因实体识别,并基于识别结果构建了传统聚落景观基因知识图谱。研究得出以下主要结论:
景观基因命名实体(TSLGNE)是传统聚落中世代传承并影响其景观特征形成的具体或抽象的因子的名称,可以从语义描述、空间信息、时间信息、几何形态、属性特征和要素关系等维度进行表达。TSLGNE可分为建筑基因类、环境基因类和文化基因类三大类,共12个小类。
BERT-BiLSTM-CRF深度学习模型在传统聚落景观基因命名实体识别任务中表现出优异的性能,总体F1值达到64%,较BiLSTM-CRF和BERT-CRF模型分别提高了11%和1%。特别是在语义复杂、数据质量较差的实体类型上,如宗教信仰类(C3),性能提升更为显著,F1值较对比模型分别提高了31%和5%。
基于Neo4j图数据库构建的传统聚落景观基因知识图谱,实现了传统聚落景观基因知识的结构化组织与可视化表达,包含3,246个实体和5,872条关系,为传统聚落的数字化保护与知识服务提供了新的技术路径。
通过对邵阳市传统聚落景观基因的空间分布特征及其关联关系分析,揭示了区域传统聚落文化景观的形成机制与演变规律。研究发现,传统聚落景观基因呈现出明显的地域聚集性和民族差异性,建筑基因、环境基因和文化基因之间存在密切的关联。
研究创新与展望
研究创新点
- 首次提出景观基因命名实体(TSLGNE)的概念,构建了完整的分类体系与知识表达方法
- 将深度学习技术应用于传统聚落文化景观基因识别,实现了从非结构化文本到结构化知识的转换
- 构建了传统聚落景观基因知识图谱,为传统聚落的数字化保护与知识服务提供了新的技术路径
- 从地理大数据与空间数据挖掘的视角探究了区域传统聚落及因子之间的特征关系
未来研究展望
- 扩大研究区域与数据规模,构建更全面的传统聚落景观基因知识库
- 优化深度学习模型,提高复杂语义环境下的实体识别精度
- 结合地理信息系统(GIS)技术,实现传统聚落景观基因的空间可视化与分析
- 探索传统聚落景观基因知识图谱的应用场景,如智慧旅游、文化遗产保护决策支持等
- 研究传统聚落景观基因的时空演变规律,为传统聚落的保护与可持续发展提供科学依据
* 以上内容由AI自动生成,内容仅供参考。对于因使用本网站以上内容产生的相关后果,本网站不承担任何商业和法律责任。