近年来,课题组围绕人工智能和深度学习展开了一系列研究,面向国家重大需求和国际研究前沿,重点关注图像处理、自然语言处理、域适应技术、多模态学习和智能信号处理领域。课题组以遥感图像的智能解译和电磁信号的挖掘理解为切入点,实现遥感图像和电磁信号的感、知、用,即遥智能理解、自动解译和行业落地。课题组的研究方向如下图所示:
1.遥感图像配准
针对遥感图像解译的基础任务图像配准问题,建立基于深度学习的遥感图像配准理论框架,从模型构建、优化设计、采样策略以及先验信息引入等方面分别提高遥感图像配准的精度。针对传统特征提取与特征匹配之间缺乏信息交互导致遥感图像配准方法自适应差的问题,建立了基于深度学习的遥感图像配准框架,自适应地提取适用于遥感图像的特征表示,从而提高遥感图像配准的精度和鲁棒性;针对异源遥感图像差异大难以匹配的问题,提出异源共享特征表示学习框架,挖掘异源共享特征表示用于图像匹配,解决了异源遥感图像大差异性难题;提出基于聚合特征差异学习网络的图像匹配方法,通过融合多层深度特征差异信息极大地提高图像匹配的精度;针对信息量有限的二值标签无法有效深度网络的问题,提出基于自蒸馏学习的遥感图像配准方法,利用自蒸馏学习挖掘样本间丰富的相似度信息增强网络优化,提升网络匹配性能。
黄河入海口图像配准结果
|
|
|
异源遥感图像配准结果
2.跨域遥感图像地物解译
遥感图像的地物解译是一项基础且重要的研究,其对于地图自动生成、国土资源规划、军事侦察、农业规划和深空探索等领域有着重大意义。由于遥感图像特殊的获取方式、感知场景、成像模式,使得大部分基于独立同分布假设的机器学习或深度学习方法面临域外泛化的困境。为了构建强大泛化能力的遥感解译模型,团队成员从基于簇对齐的域适应算法、多源域协同适应、领域泛化、快速模型适应、持续域适应的角度提出了更适合遥感场景的跨域地物解译模型。在与航天宏图的校企合作项目中,团队成员在高分二号多城市遥感数据和多时相数据上,将提出的跨领域适应算法成功的应用于建筑物提取和全要素图斑分类,较好的提升了模型应对域外数据的泛化能力。
多城市建筑物解译图
3.合成孔径雷达图像地物分类
合成孔径雷达是一种主动式微波传感器,其具有不受光照和气候条件等限制实现全天时、全天候对地观测的特点, 甚至可以透过地表或植被获取其掩盖的信息。这些特点使其在农、林、水或地质、自然灾害等民用领域具有广泛的应用前景,在军事领域更具有独特的优势。地物分类任务作为遥感数据处理中的基础任务受到了广泛的关注,作为一种快速、宏观的资源调查技术手段,其在土地利用/土地覆盖变化调查与研究中的作用都极为重要。
针对不同应用需求和不同目标特性,在传统分割方法的基础上,引入智能计算、机器学习理论,利用多尺度纹理、边缘、局部统计信息等,建立了 SAR 图像融合与目标的自适应分割、分类方法,改善了地物分类效果。
荷兰地区分类结果 旧金山地区分类结果
4.智能信号处理
电磁信号是实现各平台无线交互的理想途径,目前已广泛应用于通讯、广播、导航、物联网、侦察、场景感知等各民用及军事领域,其地位越来越不可替代。对电磁信号的准确检测与识别是保证国家安全的重要课题,基于人工智能的智能信号处理技术是未来发展的重要方向。
课题组与中电科36所、中电科54所、空军工程大学等单位合作,面向电磁信号检测与识别领域的关键问题,利用人工智能可学习、自适应的优势,展开了基于深度学习的电磁场景感知与解译的研究,提出了一系列面向复杂场景下的信号智能处理新方法。
动态开放环境下实测数据较少、无法获知非合作目标发射的全部信号种类并且非合作信号难以标注,单纯地依靠小样本、零样本策略解决实测数据的分类任务十分困难,且在实际应用中难以应用。针对上述问题,本团队采用域适应方法,提出了面向数据适应性的域适应信号识别方法,克服了实测数据样本量较少且缺乏标注的问题,使神经网络模型适应非合作环境,实现有效的信号识别。
针对由于缺乏先验知识,非合作目标发射的信号往往难以标注,造成深度神经网络难以训练的问题,本团队根据强化学习提出了基于人机交互的半自动标注方法。将强化学习与弱监督信息相结合进行强化学习,实现半自动标注,使得神经网络能够学习到无标签信号中隐含的特征与关系,达到未知信号的精确分类与标注。
5.多模态图像语义描述生成
人类快速地浏览一幅图像,就可以辨认并描述出图像中关于视觉场景的大量细节。多模态图像描述生成就是用计算机算法来模仿人类描述图像内容这一能力,用一句通俗的话解释就是“看图说话”。相较于传统的图像分类和目标检测等图像理解任务,图像描述生成任务不仅需要识别图像中的物体,而且要理解物体之间的相互关系,最后从语义层面对图像内容进行描述和表达(生成人类可以理解的句子)。这对计算机而言是一个极具挑战的任务。图像描述生成任务是一个典型的从视觉到文字的跨模态任务,其基础是图像内容理解和文本生成。团队研究了基于CNN、LSTM和Transformer的遥感语义描述生成方法,该方法通过CNN对图像特征进行提取,随后利用LSTM/Transformer将语义图像特征转化为自然语言表达。团队研究了图像语义描述生成系统中图像信息处理、单词特征表达、协同感知理论和方法等。针对图像信息处理问题,研究了基于多任务协同的遥感图像描述生成方法。针对开集图像描述生成问题,研究了基于词向量空间正则的新对象图像描述理论和方法。针对图像描述生成的持续学习问题,研究了图像描述生成模型的增量结构模型。团队研发了基于高分1号、2号和3号等系列卫星遥感图像语义图像描述生成产品,在海量遥感图像检索和管理、大规模遥感图像分类等方面开展示范应用。
6.多模态图像检索
检索是指从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据给定的查询(query)从数据库中找出相关的结果(results)。跨模态检索query和results属于不同信息模态的检索,如图文检索、图声检索、视频检索、3D对象检索等。相较于传统的基于标签的检索方式,基于深度学习的跨模态检索具有可以利用语义进行检索、精度高、实现便捷等特点,在网站信息检索、搜索引擎等领域有着重大的需求。
另一方面,随着遥感成像技术的发展,每天都有海量的遥感图像产生,这些图像无时无刻不在呈现着我们生存的地表环境。面对这些海量的遥感图像,如何自动选择出我们感兴趣的区域,如何根据自=自然语言语义来实现遥感图像语义定位,是亟待研究的问题。
因此,团队成员以遥感图像的跨模态检索为切入点,提出了适合遥感图像检索场景的跨模态检索算法,开展了遥感图像的跨模态检索研究。目前正在进一步研究如何实现遥感图像的高质量图-文(声音)跨模态检索和如何实现遥感跨模态检索的落地应用。