基于半监督小样本学习的北京市臭氧空间分布模式分类研究

引言

臭氧是继PM_2.5之后又一影响我国环境空气质量的重要污染物，对居民健康具有不可忽视的负面效应。近年来随着污染防治行动计划的陆续发布，PM_2.5污染防控取得了显著成效，但受复杂的大气化学过程影响，近地面臭氧浓度反而呈现上升趋势。

城市内用地类型的高度混合与复杂的地表形态导致污染物的排放和扩散行为存在较大的空间异质性。对于臭氧这样的光化学反应产物而言，同样会因为前体物NO₂和VOCs的空间异质性造成浓度空间分布上的差异，且这种差异可能存在一定的规律或模式。

过去对污染空间分布模式的研究，数据主要来自站点监测数据或其插值后的平面分布。然而直接用"点"数据分析所得的特征并不足以描述完整的"平面"分布；即使经过站点数据插值得到平面分布，在站点稀疏区域的估计值仍可能存在较大误差。

针对以上问题，本研究采用公开数据集中由卫星数据估计得到的臭氧日最大8h滑动均值分布数据，考虑数据标签化的难度，在小样本条件下提出一种基于半监督学习的臭氧空间分布模式分类方法，以北京市为例进行实验，分析不同模式的出现频率、浓度水平及时间规律。

研究创新点

方法创新

首次将半监督小样本学习方法应用于城市臭氧空间分布模式分类，解决了传统方法需要大量标记样本的难题。

技术突破

提出三特征融合的分类策略，在仅40个训练样本条件下达到81.12%的分类精度，显著优于传统监督学习方法。

规律发现

首次系统揭示了北京市臭氧空间分布模式的季节性变化规律，发现三种主导模式分别对应暖季、冷季和过渡期。

迁移验证

成功实现跨年度样本迁移（2020→2019），保持80.97%的分类精度，验证了方法的稳健性和可迁移性。

研究意义

污染治理

通过识别不同污染空间模式，可为分区施策提供科学依据，实现精准防控。

机制研究

模式分类结果有助于区分不同污染事件类型，深化对臭氧生成机制的理解。

方法推广

建立的小样本半监督分类框架可推广至其他大气污染物和城市的研究中。

数据来源与研究方法

2.1 臭氧分布数据

本研究使用的臭氧分布数据来自"国家青藏高原科学数据中心"的中国高分辨率高质量地面臭氧数据集（2013-2020）。该数据集是通过在地面站点监测值与卫星数据、气象数据和排放清单间建立时空极度随机树模型（STET），估计得到全覆盖的10km分辨率臭氧日最大8h滑动平均浓度分布。

本研究取2019-2020年数据集中北京市范围的数据，与地面站点监测数据进行对比验证。监测数据来自北京市生态环境监测中心在线公报的34个站点（图1）的臭氧小时浓度。

图1 研究区域与空气质量监测站点分布

2.2 研究方法

考虑到对臭氧空间分布模式标记的难度，需要提出一个能从少量训练样本中学习的半监督分类方法。本研究采用自训练的方式实现半监督分类，即通过将高置信度的测试样本标记后加入训练集，由迭代不断扩大训练集的规模，取得比依靠原训练集进行监督分类更好的效果。

图2 半监督分类示意

由于空间分布模式主要是对不同区域浓度相对高低的描述，用于分类的特征也需要对高/低值区进行表达，故分别选择3种特征计算欧氏距离：

特征1

臭氧浓度分布归一化，排除绝对值干扰，保留空间变化细节

特征2

对高/低值区的严格表达，强化样本间差异

特征3

对高/低值区的宽松表达，增加模式包容性

分类流程包括四个步骤：

按KNN分类：计算测试样本与训练样本3种特征的距离，找出最近邻训练样本
按置信度分类：计算测试样本与各类中心分布的距离，得到综合置信度
高置信度样本加入训练集：选择满足条件的样本扩充训练集
迭代与终止：重复上述步骤直至无新样本加入训练集

结果及分析

3.1 北京市臭氧空间分布模式类型的确定及分类前预处理

通过归一化特征的聚类预实验结果以及经验判断，将北京市臭氧空间分布模式分为8类（表2）。其中模式1和2为出现较多的主要模式，与北京（西）北部山地和（东）南部平原的地形特征相吻合。

表1 北京市臭氧空间分布的8类模式

模式类型	模式描述
1	（东）南高（西）北低或东高西低
2	（西）北高（东）南低
3	东北高西南低
4	西（南）高东（北）低
5	中心高
6	中心低
7	空间差异较小的均匀型
8	难以分入上述类型的混杂型

图3 北京市臭氧空间分布模式预处理与分类流程

3.2 2020年北京市臭氧空间分布模式分类结果分析

无论从分类精度指标，还是从分类结果与实际模式在所占比例、浓度水平和日期分布上的相似性，都说明本研究所采用的分类方法能够在训练样本较少的情况下，对不同的臭氧空间分布模式进行有效区分。

图4 2019-2020年北京市臭氧空间分布模式日历

3.3 训练样本迁移与验证：以2019年北京市臭氧空间分布模式为例

对2019年数据使用迁移的训练样本分类，即对2019年数据经分类前预处理，排除55个样本后，以2020年的40个样本作为训练集，2019年余下310个样本作为测试集进行半监督分类。在没有本年度样本训练的情况下，总体分类精度仍然达到了80.97%，kappa系数为0.7456，说明训练样本迁移效果尚可，利用某一年的训练集进行非本年数据的分类是可能的，由此能够降低这一分类方法中训练样本生成的难度。

2019年的分类结果也为基于2020年数据发现的规律提供了进一步佐证：2019年各模式所占比例及浓度水平与2020年相似，均以模式1、2、6为主要模式，其中模式1、4、5相较模式2、3、6浓度更高；日期分布虽与2020年存在细节上的不同，但冷暖季与过渡期的整体分布规律仍是相似的。

讨论

在过往针对北京市臭氧空间分布特征的研究中，一般认为（东）南/（西）北差异是主要差异，这与北京市地形及人口活动特征密切相关：北京市（西）北部为海拔较高的山地，植被覆盖率高，植物源排放较多BVOCs作为前体物促进该区域臭氧生成；而在中心与（东）南部人类活动更多，包括交通源、工业源等在内的人为源排放更多，并且盛行南风或东风时会受河北重工业区的污染传输影响。

进一步对臭氧空间分布模式进行分析，可将其视作气象、排放、传输等因素作用于污染过程的表现，即作为污染机制的一种结果，因此探索模式的时间变化规律有助于增进对城市臭氧污染机制的理解。

本研究发现暖季的主要模式为"（东）南高（西）北低或东高西低"的模式1，这显然与北京市（东）南或者东部的排放特征及污染传输特征相关。北京市在夏季盛行偏南风，大量臭氧及其前体物从河北等地传输至（东）南或东部平原区域，加上本地排放的前体物进行活跃的光化学反应，使得浓度明显高于（西）北或西部山地。

对于"中心低"的臭氧空间分布模式而言，一般是由于市中心交通排放的NO对臭氧进行了滴定，模式6的低值区和城六区范围相吻合也证明了这一点。模式6主要出现在冷暖季过渡期，即NO通过滴定消耗臭氧在过渡期最明显，这可能与过氧自由基（HO₂和RO₂）的浓度变化有关。

结论与展望

本研究利用由卫星数据建模估计的臭氧日最大8h滑动均值分布数据，针对臭氧空间分布模式标签化的难度提出了一种面向小样本的半监督学习方法，在北京市进行分类实验。主要结论如下：

2020年数据经预处理后，以40个训练样本对249个测试样本采用自训练的半监督分类方法进行分类，总体分类精度为81.12%，kappa系数为0.7416。相比初始训练集上的监督分类，2个指标在迭代过程中分别提高了3.21%和0.0412，说明在少量训练样本的情况下，使用半监督分类方法能有效提升臭氧空间分布模式的分类效果。
分类结果与实际模式在出现频率、浓度水平及时间规律上呈现出一致的规律：8种模式中，"（东）南高（西）北低或东高西低"的模式1、"（西）北高（东）南低"的模式2以及"中心低"的模式6为主要模式；从浓度水平来看，模式1、4、5相较高低值区与之相反的模式2、3、6浓度更高，均匀型的模式7浓度居中；模式的时间分布存在季节性，即以3-10月为暖季，11-2月为冷季，模式1、4、5主要分布在暖季，模式2、3主要在冷季，模式6、7则主要在冷暖季的过渡期。模式的季节性规律与区域传输和光化学反应的季节性特征有关。
利用2020年的训练样本对2019年臭氧空间分布模式进行半监督分类，总体分类精度仍然达到了80.97%，kappa系数为0.7456，说明训练样本迁移效果尚可，可据此降低训练样本生成的难度。2019年的分类结果也验证了基于2020年数据发现的规律。
与求浓度均值分布相比，进行日浓度分布模式分类除提取到污染空间分布的主要模式外，还能捕捉次要模式和模式的时间变化，在全面确定高污染的防治区域和分类别研究不同污染事件的成因上有很大优势。

同时，由于本研究的半监督分类采用自训练方式，对训练样本要求较高，既需要准确把握研究区的污染分布模式类型，又需要在挑选同一类型的训练样本时兼顾代表性与差异性，使少量训练样本尽可能代表各模式的不同形态，否则会降低分类精度。未来考虑改进和试验更多不同的分类方法，在进一步提升分类精度的同时减小方法使用的难度。