基于AI大模型的文生图技术方法研究及应用

摘要

【目的】系统梳理基于AI大模型的文生图技术的进展，并探讨该技术在城乡规划领域的应用。

【探讨】本文首先分别从训练数据集、模型和评价方法3个视角出发，对文生图技术发展进行了全面、系统的回顾，以揭示其成功背后的推动性因素。尽管文生图技术在通用计算机领域取得显著进展，但城乡规划领域的实际应用中仍面临诸多关键挑战，包括缺乏高质量领域数据、生成内容的可控性和可靠性不足，以及缺乏地学先验知识约束等。针对这些问题，本文提出了相应的研究思路，包括：面向领域需求的文生图数据增强策略、基于指令拓展的空间信息增强文生图模型、以及基于诱导布局的局部编辑文生图模型。在此基础上，结合多个实际应用案例展示文生图技术在城乡规划设计领域的应用价值和潜力。

【展望】文生图技术通过技术突破和多学科融合，有望成为城乡规划设计领域的重要创新动力，为高效、智能化的设计实践提供支持。

关键词：生成式AI；AIGC；图像生成；文生图；扩散模型；人工智能；大模型

1 引言

近年来，人工智能（Artificial Intelligence，AI）技术取得飞速发展，主要可分为判别式和生成式两大类。其中，判别式AI（Discriminative AI）的核心目标是学习输入数据X与输出标签Y之间的直接映射关系，即条件概率分布P(Y|X)，从而在给定输入的条件下预测合适的输出结果。如图1（a）所示，判别式AI主要旨在解决分类、目标检测等判别型任务。生成式AI（Generative AI）不仅关注输入与输出之间的关系，还重在理解输入数据本身，即学习数据的联合概率分布P(X, Y)或输入数据自身分布P(X)，从而能生成新的数据样本。如图1（b）所示，生成式AI致力于解决文本生成、图像生成等生成型任务。

图1 判别式与生成式人工智能

通过对比两者在核心目标和建模方式上的根本差异可以发现，判别式AI由于仅关注"输入-输出"之间的映射关系，往往容易忽视对数据本身进行深层次理解。而生成式AI必须基于对数据分布及底层结构的深入理解，才能有效生成符合人类预期的结果。从技术角度看，生成式AI在解决高维度、开放性和复杂性问题上，展现出卓越潜力。

2023年Gartner在研究报告中就将生成式AI定义为未来的战略技术。目前，生成式AI已为科学研究、艺术与设计、教育、工业生产、商业等众多领域带来了深刻变革。在生命科学研究领域，AlphaFold系列生成式AI模型使蛋白质结构预测变得前所未有地高效、廉价和普及。通过减少对传统耗时且高成本手工实验的依赖，AlphaFold显著加速了药物研发、疾病研究和生物制品设计进程。AI的突破甚至引发了科学研究的范式转变。在地学领域，中国科学院发布了全球首个多模态地理科学大模型"坤元"（Sigma Geography）。与ChatGPT等通用领域的大模型不同，坤元大模型根据地学领域面临的问题和需求进行设计，具备丰富的地理专业知识，从而能能实现地理专业问题解答、专业文献智能分析、地理数据资源查询与分析、专题地图绘制等一系列功能。

生成式AI模型为各行业垂直领域带来重大机遇，但也面临诸多挑战。其中一个关键问题是如何将行业特定任务需求传达给模型，来激发其相关"记忆"。对于已经从海量训练数据中获取了丰富知识的生成式AI大模型而言，恰当的"提示"是充分发挥其创作性潜能的关键，更是确保其生成内容真正满足用户预期的前提。语言文本作为人类表达意图的基本媒介，凭借其丰富的语义和便捷性，是人与AI模型"沟通"的首选。因此，基于文本引导AI模型进行图像生成或编辑的"文生图"（Text-to-Image）技术，长期备受学术界和工业界的广泛关注。这种将语言描述高效转换为图像或视频等数字化内容的技术，在许多行业中都展现出巨大的应用潜力，包括但不限于游戏开发、广告创意、城乡规划设计等专业领域。

在大数据、大模型的共同加持下，Midjourney、DALL-E、Stable Diffusion等代表性生成式AI在文生图技术上持续取得突破性进展。它们能以极高的效率生成高质量的图片甚至视频内容，显著降低艺术与设计的门槛，使许多非专业人士也能参与创作，甚至从中获利。然而，这些文生图方法在解决特定行业的个性化需求时仍存在明显不足。这一现象在城乡规划设计领域中尤为突出。具体而言，地理数据的高复杂性和对空间结构的特定要求，使得现有模型很难直接应用。此外，文本提示的有效性也受到局限，往往无法充分表达城乡规划设计领域的复杂概念，从而影响了生成图像的质量和专业性。总体而言，如何将前沿的文生图技术转化为行业实际生产力，依然存在诸多严峻挑战。

在此背景下，本文首先对文生图数据进展进行了全面且系统的梳理，以揭示其背后的关键性推动因素；然后分析文生图技术在城乡规划设计行业应用落地所面临的问题和潜在解决思路；接着介绍了文生图技术在城乡规划设计领域的实际应用案例，包括老旧小区改造、工业区规划图生成、以及乡村局部改造规划设计等；最后对文生图技术未来发展进行展望。

2 文生图技术的发展历程

俗语"一图胜过千言万语"揭示了图像在信息表达浓缩性方面的独特优势。这说明，实现文本到图像的自动生成不仅是技术上的重要突破，更是迈向通用人工智能的关键一步。以下从数据、模型和评价指标三个视角出发，对文生图技术进行回顾，以理解其背后的关键性推动因素。

2.1 文生图数据集

生成式AI的成功依赖于大规模、多样化的数据集。文生图（Text-to-Image）技术不仅追求图像生成质量，还要求生成结果与输入文本提示在相关性和语义上一致。因此，训练数据集不仅需具备规模和多样性，还要注重图像-文本描述的准确性与精细度。

首先，训练数据集的规模和多样性直接决定文生图模型的生成潜力。如果样本数量十分有限，或在内容、风格、主题上缺乏多样性，模型生成的图像会趋于单一，难以满足多样化创作需求。并且，样本均衡性也会影响模型实际表现。当某些类型的图像在数据集中占比过高时，模型倾向于生成该类型的图像，限制创造力。相反，主题、风格和场景均衡多样的数据集有助于模型学到更丰富的视觉概念，从而提升不同情境下的生成能力。

其次，文本描述的质量对文生图模型生成符合用户预期的图像至关重要，主要体现在2个方面（图2）。

图2 文生图训练数据集质量的内涵

（1）文本描述的详细程度通常影响模型对文本提示的理解与响应能力。高质量的文本描述不仅包括图像场景的整体语义或关键对象类别，还涵盖对象的空间分布、属性信息（如大小、形状、颜色等）以及对象与背景的关系信息。理论上，更详细的文本描述有助于模型具备更强的语义理解能力，从而响应更复杂的文本提示。然而，详细的文本描述意味着高昂的标注成本。为降低标注成本，研究人员已探索自动化或半自动化的图像-文本数据集构建方法。例如，OpenAI的Radford等通过互联网爬虫构建了包含4亿图像-文本样本的数据集。基于类似方法，谷歌的Jia等人构建了包含18亿图像-文本样本的数据集ALIGN，但并未开源。为便于更多研究人员训练文生图AI大模型，AI开源组织LAION与9所高校或机构合作，发布了58.5亿样本的LAION-5B数据集。为减少错误，LAION-5B构建过程借助视觉-语言大模型CLIP自动评估图文相似度，过滤不匹配的图文对。在地学领域，因数据来源的特殊性，如此大规模的图文数据集难以通过网络爬虫获取。对此，Zhang等使用高性能的视觉-语言大模型BLIP-2和CLIP，为遥感影像生成文本描述，构建了500万样本的RS5M数据集，以促进学领域的相关研究。

（2）文本描述与图像的关联粒度影响模型掌握文本-图像映射关系的能力。根据图文关联的精细程度，数据集可分为：场景级、对象级和像素级关联三大类。场景级关联数据集提供文本标签或描述与图像整体的粗略对应关系。对象级关联数据集对关键对象进行了详细标注，提供更细粒度的文本-图像对应关系。像素级关联数据集对图像进行像素级标注，明确像素区域与文本之间的对应关系。随着关联粒度提升，模型能更容易理解视觉对象与文本提示的语义映射关系，进而实现精细的文本到图像转换。但如果训练数据中的文本描述不准确、不完整或与图像不匹配，可能导致模型学习错误的"文本-图像"对应关系，难以生成符合预期的图像。

随着高质量图像-文本数据集的涌现，文生图技术不断进步，逐步满足多样化应用需求。然而，与数十亿样本规模的通用图文数据集相比，地学领域图文数据集的规模和多样性明显不足。目前，最大的遥感影像-文本数据集RS5M仅为百万级别。同时，数据标注过程复杂且依赖专业知识，现有地学领域图文数据在文本描述的详细程度和图文关联粒度上仍有较大提升空间。因此，要推动文生图技术在特定领域的发展，亟需构建高质量、专业化的图像-文本数据集，以满足实际应用需求。

2.2 文生图模型

不同时期的代表性文生图模型如图3所示。其中，AlignDRAW作为文本生成图像领域的开创性研究，虽然奠定方法论基础，但生成的图像通常粗糙且细节欠佳。为提高图像质量及图文语义一致性，技术不断迭代，催生了一系列更先进的文生图模型。整个过程可大致可以分为以下4个关键阶段。

图3 不同时期的代表性文生图模型：基于GAN、VAE、扩散模型和多模态信息引导的方法

2.2.1 启航阶段：生成对抗网络的奠基作用

Goodfellow等于2014年提出生成对抗网络（GANs），为图像生成研究奠定了良好基础。GAN由生成器和判别器组成，通过对抗训练方式提升生成结果的真实性。

2.2.2 发展阶段：变分自编码器的引入与发展

VAE通过学习隐变量z的概率分布，提高生成数据的质量和多样性。基于VQ-VAE，OpenAI于2021年提出DALL-E，实现文生图领域的革命性突破。

2.2.3 爆发阶段：扩散模型的兴起与技术突破

扩散模型通过将复杂的图像生成过程分解为一系列简单的"去噪"步骤，在生成图像的质量和多样性上实现突破。DALL-E 2、Imagen、Stable Diffusion等强大模型相继涌现。

2.2.4 深化应用：多模态信息引导的精细化生成控制

近期研究旨在建立多模态信息协同引导的生成控制机制，支持文本描述、边缘轮廓图、语义分割标签等不同模态的提示，实现精细化控制。

总结而言，文生图技术的迅速发展离不开生成式AI模型的不断进步。生成对抗网络（GANs）为图像智能生成奠定了基础。变分自编码器（VAE）及其变体模型拓展了基于文本的生成能力。OpenAI推出的DALL-E和CLIP模型深化了文本与图像的语义关联，使生成图像能更精确地匹配文本提示。扩散模型的提出大幅提升了图像质量与多样性，推动文生图技术的爆发式增长。近期研究利用多模态信息引导图像生成，进一步提升文生图的可控性，推动文生图技术在多个领域的应用。

2.3 文生图技术评价方法

图像质量和文本-图像对齐度是评价文生图技术的两大维度。前者关注生成图像的真实性和视觉效果，后者衡量图像与文本描述的匹配度。

图像质量评价指标

Fréchet Inception Distance (FID)

计算生成图像分布与真实图像分布在高维特征空间中的Fréchet距离

使用频率：85%

Inception Score (IS)

通过计算条件类别分布与边缘类别分布之间的KL散度，评估生成结果的多样性

使用频率：70%

图文匹配度评价指标

CLIP Score

利用预训练的视觉-语言模型CLIP计算图像-文本之间的余弦相似度

使用频率：90%

R-Precision

通过计算生成图像与文本描述的特征余弦相似度，衡量生成图像与对应文本描述之间的语义一致性

使用频率：65%

除上述指标外，许多研究提出了专门的文生图评估基准。例如，Multi-Task Benchmark设置32种任务来全面地评估文生图技术能力，并将任务分为3个难度级别。这些评价方法为文生图模型性能分析提供了量化依据，并能客观反映当前模型的不足，以指导后续改进。随着文生图技术的发展，未来可能会涌现更多针对特定场景的评价指标，以推动模型在多样性、真实性和图文匹配度等方面的不断提升。

3 文生图技术方法在城乡规划设计领域的研究与应用

3.1 传统城乡规划设计的需求与难点分析

规划设计的核心任务是在结合现实条件的基础上，将甲方合理需求准确转化为专业设计方案。然而，在传统以人工为主的设计模式中，需求和设计双方往往需要耗费大量时间与精力，通过多次磋商和反复对接来明晰需求的内涵（图4(a)）。不仅显著增加了项目实施的时间和人力成本，还可能降低规划设计的质量。

图4 传统模式下的城乡规划设计与文生图模式下的城乡规划设计

具体而言，传统设计模式下，双方沟通中面临以下难题：

需求不明确

在项目初期，甲方可能尚未明确自身的部分隐性需求，甚至未能完全意识到这些需求。这需要设计团队通过深入调研或多轮沟通进行挖掘和确认。

信息传递偏差

在沟通过程中，甲乙双方可能因表达方式或理解上的差异，导致信息传递失真。这种偏差需要通过持续的沟通和调整来纠正。

重复性劳动

每轮沟通后，乙方需依据调整后的需求重新设计或修改方案，这往往涉及大量低效且耗时的重复性工作，降低了整体设计效率。

针对上述难题，亟需引入新的技术手段来优化沟通流程，提高项目推进的效率与实施质量。

3.2 文生图技术为规划设计带来的机遇与挑战

文生图技术为城乡规划设计流程变革带来重要机遇（图4(b)）。文生图技术通过智能生成和数据驱动的数字化流程，能将甲方合理的文本描述高效转化为直观的规划设计方案，从而解决传统设计模式中繁琐的多轮沟通与反复修改问题。

文生图技术在城乡规划设计中的主要优势

高效沟通

通过可视化的方式快速呈现设计构想，减少沟通成本和理解偏差

创意激发

生成多样化的设计方案，为设计师提供更丰富的创意参考

时间节约

快速生成初步设计草图，减少重复性工作，缩短项目周期

参与度提升

降低非专业人士参与规划设计的门槛，促进多方协作

然而，文生图技术在城乡规划设计领域的应用仍面临诸多挑战：

文生图技术在城乡规划设计中面临的主要挑战

缺乏高质量领域数据

城乡规划专业数据集规模小、质量参差不齐，限制了模型的专业性

可控性不足

难以精确控制生成内容的空间布局和细节特征，影响实用性

可靠性不足

生成结果可能不符合城市规划法规和专业标准，需要人工审核

缺乏地学先验知识约束

模型缺乏对地理空间规律和城市发展规律的理解，难以生成符合实际的方案

针对这些挑战，研究人员提出了多种解决思路：

面向领域需求的文生图数据增强策略

通过数据合成、专业标注和迁移学习等方法，构建高质量的城乡规划领域专用数据集

基于指令拓展的空间信息增强文生图模型

将空间信息作为额外的指导信号融入文生图模型，提升生成内容的空间一致性和合理性

基于诱导布局的局部编辑文生图模型

允许用户通过草图或参考图像控制生成内容的布局和结构，实现更精细的设计控制

4 文生图技术在城乡规划设计中的应用案例

文生图技术在城乡规划设计领域已经开始显现其应用价值。以下通过几个典型案例，展示文生图技术如何在实际项目中发挥作用。

案例一：老旧小区改造方案生成

在老旧小区改造项目中，设计师通过文本描述提出改造需求，如"将老旧小区改造成具有现代感、绿色环保、适合老年人居住的社区，增加休闲空间和无障碍设施"。

文生图系统基于这些描述，结合小区的现状照片，生成多个改造方案的效果图，为设计师和居民提供直观的参考。这些生成的效果图帮助居民更好地理解改造后的社区环境，促进了多方沟通和决策。

案例二：工业区规划图生成

在工业区规划项目中，规划师输入了详细的功能需求和环保要求，如"设计一个现代化、环保型工业园区，包含生产区、研发中心、物流中心和生态缓冲带，强调绿色制造和可持续发展"。

文生图系统根据这些描述生成了多种布局方案，帮助规划师快速评估不同功能分区的可行性，并为后续详细规划提供了创意基础。这些生成的规划图在空间布局、功能分区和交通流线等方面都展现出了合理性。

案例三：乡村局部改造规划设计

在乡村振兴背景下，设计师希望为传统村落注入新的活力，同时保留其文化特色。通过输入"保留传统建筑风格，增加现代化设施，打造具有地方特色的乡村旅游区，包含民宿、特产展示区和文化体验中心"等描述。

文生图系统结合当地建筑风格和自然环境特点，生成了一系列兼具传统韵味和现代功能的改造方案，为乡村规划提供了新思路。这些方案既尊重了当地文化传统，又满足了现代旅游和生活需求。

这些案例展示了文生图技术在城乡规划设计中的实际应用价值。通过将文本描述转化为直观的视觉效果，文生图技术不仅提高了设计效率，还促进了多方沟通和参与，为规划设计注入了新的创意和可能性。然而，这些应用也反映出当前技术的局限性，如生成内容的专业性和可控性仍有提升空间。

应用案例	主要优势	存在挑战
老旧小区改造	快速生成多种改造方案，便于居民理解和参与决策	生成的方案可能忽略实际工程约束和预算限制
工业区规划	高效探索不同功能布局，提供创意参考	难以精确控制各功能区的面积比例和空间关系
乡村局部改造	平衡传统风格与现代功能，提供多样化设计思路	对地方文化特色的理解和表达仍有局限

5 总结与展望

本文系统梳理了文生图技术的发展历程，分析了其在城乡规划设计领域应用的机遇与挑战，并通过实际案例展示了其应用价值。研究表明，文生图技术正在成为城乡规划设计领域的重要创新工具，为传统设计流程带来变革。

文生图技术在城乡规划设计领域的未来发展趋势

技术融合与专业化

文生图技术将与GIS、BIM等专业工具深度融合，形成更适合城乡规划设计需求的专业化解决方案

多模态交互增强

未来的文生图系统将支持更丰富的输入形式，如草图、语音、手势等，实现更自然的人机交互体验

知识驱动的智能规划

通过融入城市规划理论、法规标准和最佳实践，文生图系统将具备更强的专业知识推理能力

协同设计平台构建

文生图技术将成为连接各方参与者的协同设计平台核心，促进设计师、居民、决策者等多方高效沟通

尽管文生图技术在城乡规划设计领域展现出巨大潜力，但仍需克服数据质量、专业性和可控性等方面的挑战。未来研究应着重于构建高质量的专业数据集，开发具有地学知识和规划理论约束的专业化模型，以及设计更符合规划师工作流程的交互方式。

总之，文生图技术正在重塑城乡规划设计的工作方式和思维模式。随着技术的不断进步和应用实践的深入，文生图技术有望成为推动城乡规划设计领域创新发展的重要力量，为建设更宜居、可持续的人居环境提供有力支持。