臭氧是继PM2.5之后又一影响我国环境空气质量的重要污染物,对居民健康具有不可忽视的负面效应。近年来随着污染防治行动计划的陆续发布,PM2.5污染防控取得了显著成效,但受复杂的大气化学过程影响,近地面臭氧浓度反而呈现上升趋势。
城市内用地类型的高度混合与复杂的地表形态导致污染物的排放和扩散行为存在较大的空间异质性。对于臭氧这样的光化学反应产物而言,同样会因为前体物NO2和VOCs的空间异质性造成浓度空间分布上的差异,且这种差异可能存在一定的规律或模式。
过去对污染空间分布模式的研究,数据主要来自站点监测数据或其插值后的平面分布。然而直接用"点"数据分析所得的特征并不足以描述完整的"平面"分布;即使经过站点数据插值得到平面分布,在站点稀疏区域的估计值仍可能存在较大误差。
针对以上问题,本研究采用公开数据集中由卫星数据估计得到的臭氧日最大8h滑动均值分布数据,考虑数据标签化的难度,在小样本条件下提出一种基于半监督学习的臭氧空间分布模式分类方法,以北京市为例进行实验,分析不同模式的出现频率、浓度水平及时间规律。
首次将半监督小样本学习方法应用于城市臭氧空间分布模式分类,解决了传统方法需要大量标记样本的难题。
提出三特征融合的分类策略,在仅40个训练样本条件下达到81.12%的分类精度,显著优于传统监督学习方法。
首次系统揭示了北京市臭氧空间分布模式的季节性变化规律,发现三种主导模式分别对应暖季、冷季和过渡期。
成功实现跨年度样本迁移(2020→2019),保持80.97%的分类精度,验证了方法的稳健性和可迁移性。
通过识别不同污染空间模式,可为分区施策提供科学依据,实现精准防控。
模式分类结果有助于区分不同污染事件类型,深化对臭氧生成机制的理解。
建立的小样本半监督分类框架可推广至其他大气污染物和城市的研究中。
本研究使用的臭氧分布数据来自"国家青藏高原科学数据中心"的中国高分辨率高质量地面臭氧数据集(2013-2020)。该数据集是通过在地面站点监测值与卫星数据、气象数据和排放清单间建立时空极度随机树模型(STET),估计得到全覆盖的10km分辨率臭氧日最大8h滑动平均浓度分布。
本研究取2019-2020年数据集中北京市范围的数据,与地面站点监测数据进行对比验证。监测数据来自北京市生态环境监测中心在线公报的34个站点(图1)的臭氧小时浓度。
考虑到对臭氧空间分布模式标记的难度,需要提出一个能从少量训练样本中学习的半监督分类方法。本研究采用自训练的方式实现半监督分类,即通过将高置信度的测试样本标记后加入训练集,由迭代不断扩大训练集的规模,取得比依靠原训练集进行监督分类更好的效果。
由于空间分布模式主要是对不同区域浓度相对高低的描述,用于分类的特征也需要对高/低值区进行表达,故分别选择3种特征计算欧氏距离:
臭氧浓度分布归一化,排除绝对值干扰,保留空间变化细节
对高/低值区的严格表达,强化样本间差异
对高/低值区的宽松表达,增加模式包容性
分类流程包括四个步骤:
通过归一化特征的聚类预实验结果以及经验判断,将北京市臭氧空间分布模式分为8类(表2)。其中模式1和2为出现较多的主要模式,与北京(西)北部山地和(东)南部平原的地形特征相吻合。
模式类型 | 模式描述 |
---|---|
1 | (东)南高(西)北低或东高西低 |
2 | (西)北高(东)南低 |
3 | 东北高西南低 |
4 | 西(南)高东(北)低 |
5 | 中心高 |
6 | 中心低 |
7 | 空间差异较小的均匀型 |
8 | 难以分入上述类型的混杂型 |
无论从分类精度指标,还是从分类结果与实际模式在所占比例、浓度水平和日期分布 上的相似性,都说明本研究所采用的分类方法能够 在训练样本较少的情况下,对不同的臭氧空间分布 模式进行有效区分。
对2019年数据使用迁移的训练样本分类,即对2019年数据经分类前预处理,排除55个样本后,以2020年的40个样本作为训练集,2019年余下310个样本作为测试集进行半监督分类。在没有本年度样本训练的情况下,总体分类精度仍然达到了80.97%,kappa系数为0.7456,说明训练样本迁移效果尚可,利用某一年的训练集进行非本年数据的分类是可能的,由此能够降低这一分类方法中训练样本生成的难度。
2019年的分类结果也为基于2020年数据发现的规律提供了进一步佐证:2019年各模式所占比例及浓度水平与2020年相似,均以模式1、2、6为主要模式,其中模式1、4、5相较模式2、3、6浓度更高;日期分布虽与2020年存在细节上的不同,但冷暖季与过渡期的整体分布规律仍是相似的。
在过往针对北京市臭氧空间分布特征的研究中,一般认为(东)南/(西)北差异是主要差异,这与北京市地形及人口活动特征密切相关:北京市(西)北部为海拔较高的山地,植被覆盖率高,植物源排放较多BVOCs作为前体物促进该区域臭氧生成;而在中心与(东)南部人类活动更多,包括交通源、工业源等在内的人为源排放更多,并且盛行南风或东风时会受河北重工业区的污染传输影响。
进一步对臭氧空间分布模式进行分析,可将其视作气象、排放、传输等因素作用于污染过程的表现,即作为污染机制的一种结果,因此探索模式的时间变化规律有助于增进对城市臭氧污染机制的理解。
本研究发现暖季的主要模式为"(东)南高(西)北低或东高西低"的模式1,这显然与北京市(东)南或者东部的排放特征及污染传输特征相关。北京市在夏季盛行偏南风,大量臭氧及其前体物从河北等地传输至(东)南或东部平原区域,加上本地排放的前体物进行活跃的光化学反应,使得浓度明显高于(西)北或西部山地。
对于"中心低"的臭氧空间分布模式而言,一般是由于市中心交通排放的NO对臭氧进行了滴定,模式6的低值区和城六区范围相吻合也证明了这一点。模式6主要出现在冷暖季过渡期,即NO通过滴定消耗臭氧在过渡期最明显,这可能与过氧自由基(HO2和RO2)的浓度变化有关。
本研究利用由卫星数据建模估计的臭氧日最大8h滑动均值分布数据,针对臭氧空间分布模式标签化的难度提出了一种面向小样本的半监督学习方法,在北京市进行分类实验。主要结论如下:
同时,由于本研究的半监督分类采用自训练方式,对训练样本要求较高,既需要准确把握研究区的污染分布模式类型,又需要在挑选同一类型的训练样本时兼顾代表性与差异性,使少量训练样本尽可能代表各模式的不同形态,否则会降低分类精度。未来考虑改进和试验更多不同的分类方法,在进一步提升分类精度的同时减小方法使用的难度。