学术信息网 西电导航 关于 使用说明 搜索 系统首页 登录 控制面板 收藏 梁雪峰的留言板
科学研究

研究团队承担的科研项目:

 

  1. 人工智能与健康研究中心                                                                             2023 ~ 2028
  2. 广东省“新一代人工智能”重点领域研发计划项目 (专题2)                              2021 ~ 2023
  3. 手机AI自动曝光系统(小米手机)                                                               2021 ~ 2022
  4. 大脑破译与人工智能基础理论研究(西安市科技创新项目,100万)          2019 ~ 2021
  5. 西电科研启动金                                                                                            2018 ~ 2021
  6. JSPS Grants-in-Aid for Science Research C, PI                                         2015 ~ 2017
  7. JSPS Grant-in-Aid for Young Scientists B,     PI                                          2013 ~ 2015
  8. International Exchanges Scheme (Royal Society, UK), Joint, PI: Prof. Peter McOwan, Queen Mary University of London, 2012 ~ 2013

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

团队研究方向:

 

  • 多模态情感计算

情感是个体对外界价值关系产生的主观反应,也是智能的重要组成部分。在日常生活中,情感的反应是多模态的,人们会根据面部表情,语气、文字、肢体动作、生理指标(心率、血压、呼吸)等其他一些细微的变化来感知他人的情感状态。由于各模态所承载的情感信息并不相同,因此多模态结合能够有效进行信息互补,降低情感数据的模糊性,从而更好地完成识别分类任务。

情感计算在服务型机器人、审讯、娱乐等方面有了越来越多的应用,这也意味着针对模糊情感数据的处理具有广泛的应用前景。

以下是团队已取得的成果:

  1. "Adaptive Mask Co-optimization for Modal Dependence in Multimodal Learning", Proc. Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP 2023) (Oral presentation, Acceptance rate: 5%), Rhodes island, Greece, June, 2023.


在多模态学习中,模型常常受到某个或某些模态主导,如图中的模型严重依赖文字信息。这是因为不同模态提供的信息量不同,导致学习时各个模态对模型的贡献度不同。因此模型整体上更倾向于学习包含信息多,学习速度快,对模型贡献大的简单模态,而忽略其他较难学习的模态,导致模型不能充分学习困难模态的信息。当遇到简单模态和困难模态发生对调的样本时,困难模态无法发挥出应有的贡献,降低了识别的效果。

 

我们提出了一种新的插件模块,自适应掩码协同优化(AMCo),它可以插入到现有多模态学习模型中。主要包括三个部分:(a)联合优化:多个单模态分支和一个多模态分支协同优化,其不仅保留了模型在简单模态上的学习性能,也保证了困难模态的优化效果;(b)依赖比例:在FC*层之后计算每个模态的依赖;(c)自适应掩码:通过屏蔽依赖模态的特征,在学习中增大依赖模态学习的困难程度,以鼓励模型从困难模态中学习更多的信息。

 

  1. "Multi-Classifier Interactive Learning for Ambiguous Speech Emotion Recognition", IEEE/ACM Transactions on Audio, Speech and Language Processing, Vol 30, pp. 695 - 705, Jan. 2022.

  本研究面向模糊情感分类问题,首先,本文中使用模糊标签代替传统的精确标签进行学习。模糊标签以分布的形式表示该样本属于各类的概率,能更准确地表示模糊数据的特点。在实际的学术研究中,为了构建模糊标签,需要多位经过训练的专家对样本进行标注,极其耗费人力物力,成本很高。所以本论文中利用多个这样的分类器对无标签模糊样本进行分类投票处理通过分类器自动构建模糊标签,能够节省成本,更加准确地表现出模糊样本的性质。

另外,从最优交互理论得到启发,在面对较为困难的问题时,如果允许集体对各自获取的信息以及判断依据等进行交流学习,再进行判断,能够取得更好的决策结果。同时,交互学习也能提高个体的判断力。由此得到启发,本论文中利用多个结构不同的分类网络作为分类器,使用经过训练的分类器来代替决策者,通过分类器间投票构建模糊标签,将模糊标签作为分类器间信息沟通的媒介,将模糊标签代替精确标签重新对分类器进行训练,从而达到交互学习的目的,提高各个分类器各自的性能以及分类器间的一致性。

 

  1. "Progressive Co-teaching for Ambiguous Speech Emotion Recognition", Proc. Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP 2021), Toronto, Canada, June, 2021.

情感识别任务中存在大量模糊数据,如图所示,这部分数据位于分类边界上,很难区分。在现有方法中常依赖于专家投票构建的软标签进行建模。本研究主要研究目标为提出一种模拟人类学习困难问题的方法,提升模型对于情感模糊数据,即困难数据的学习能力。

本论文中提出了一种基于协同教学的渐进式协同教学(Progressive Co-teaching, PCT)方法。不同于协同教学,PCT方法采用由易到难的学习策略来处理有歧义的语音情感数据。通过同时训练两个网络,并为彼此挑选简单数据,使网络的分类能力在训练过程中逐渐增强,并逐步学习到模糊数据。

 

 

  • 模式挖掘

模式是用来说明事物结构的主观理性形式概念,是事物一般性和特殊性的衔接。人们进行决策时需要模式,但常常不能直接获得。例如,在科学研究的双盲实验中需要设计实验组和对照组,受试者接受大量不同刺激,做出相应的反应(反应是刺激的标签,要做分类)。在这些表象之下,研究人员希望找到造成不同反应的刺激之间有哪些特点(自动寻找特点要做聚类),从而更好地进行相关性和因果关系的分析。模式也存在于各种常见的工业场景中。如在视频分析中,需要了解高分、低分影片的差异(分类),挖掘各自的特点(聚类),从而更好的指导投资人与导演等从事影视工作。在工业设计中,设计师期望了解外观受欢迎和不受欢迎产品的差别,更希望知道优秀产品的设计元素。当然,此类问题可以从双类别扩展到多类别。  

一个模式必须具备两种性质:判别性频繁性。判别性代表表明该模式属于某一特定类别,不同时出现在多个类别中,能够衡量该模式是否具有有效信息(例如树木、天空出现在很多类别中,但是这些模式不具备研究价值);频繁性代表该模式是否频繁出现,决定了模式是否具有代表性(例如只在某一类别中出现少数几次的模式也不具有研究意义)。

 

以下是团队已有的一些成果:

  1. "Multi-pattern Mining using Pattern-level Contrastive Learning and Multi-pattern Activation Map", IEEE Trans. on Neural Networks and Learning Systems, IF (14.255). 

本论文提出了一种新颖的视觉任务“多模式挖掘”,该任务旨在挖掘复杂类别中的多个不同视觉模式,它的挑战在于要同时完成有监督的分类任务和无 监督的聚类任务。多模式挖掘在机器学习领域中鲜有探索,但在社会心理学、文化心理学、创新设计、生物制药领域的复杂问题解决中有着广泛的价值。

下图展示了本方法在ILSVRC2012中的档案室’‘南瓜意面两类数据 中的结果。红色到深蓝色代表网络从感兴趣到不感兴趣,每张热力图的右上角是原图。可以看出,在档案室中,每种模式分别是,整齐排列的档案、人像后的档案、存储档案的柜子三种模式。在南瓜意面中,三种模式分别是,完整的南瓜、南瓜壤、做好的意面三种模式。

  1. "A Joint Framework for Mining Discriminative and Frequent Visual Representation", Neurocomputing (ELSEVIER), Vol. 500, pp. 776-790, Aug 2022, IF (5.719).

本论文提出了一种联合挖掘具有判别性和频繁性的视觉模式表征的方法,利用分类任务中的交叉熵损失保证模式的判别性,同时设计了一种相似关注损失来保证模式的频繁性,两者联合优化,避免模式判别性和频繁性单独优化导致次优解。 

下图展示了本方法在 iNaturalist-100 数据集中发现的视觉表征的实例。最上方的是原图,中间的是热力图,红色到深蓝色代表网络从感兴趣到不感兴趣,最下方的是感兴趣区域的裁剪图像。

  

  1. Jointly Discriminating and Frequent Visual Representation Mining", Proc. Asian Conf. on Computer Vision (ACCV 2020), Kyoto, Japan, November, 2020.

本论文提出了联合挖掘具有判别性和频繁性的视觉模式表征的方法,利用分类任务中的交叉熵损失保证模式的判别性,同时使用三元损失来保证模式的频繁性,两者联合优化,避免模式判别性和频繁性单独优化导致的次优解。

  1. "Deep Relevance Feature Clustering for Discovering Visual Representation of Tourism Destination", Proc. Chinese Conf. on Pattern Recognition and Computer Vision (PRCV 2020), Nanjing, China, October, 2020.

本论文提出了一种深度相关度特征聚类的方法,为了保证判别性,使用层级相关传播特征映射来定位对网络预测贡献最大的区域;为了保证频繁性,依据特征空间中密度,将提取的相关特征聚类,并选择高密度实例进行视觉表征。

 

·唇语识别

唇语识别的目标是通过分析说话人的嘴唇移动方式来理解他们所说的内容。它在人类交流和语言理解中起到关键作用,因此有巨大的应用潜力,如安防设备、噪声环境中的语言识别和生物认证、改进助听器、公共场所的无声听写。

唇语识别研究由易到难被分为已见人(seen speaker)和未见人(unseen speaker)唇语识别,其区别在于测试集中是否包含在训练集中出现过的说话人。

以下是团队已取得的成果:

  1. "CALLip: Lipreading using Contrastive and Attribute Learning", Proc. the 29th ACM International Conference on Multimedia (ACMMM 2021), Chengdu, China, October, 2021.

本论文关注唇语识别中两个严峻挑战:1)不同人在说相同的话语时,唇部动作和嘴唇外形的差异相当大;2)同一个人在说出容易混淆的音素时,唇部动作相似。

  

为了解决这两个问题,我们采用属性学习模块将说话人表征转换为相应的掩码用于减少不同说话人唇形差异带来的干扰。对比学习模块使用具有更高区分度的音频信号提升低分辨率视觉特征的可分性。

 

  • 运动感知

  在计算机视觉领域,运动感知主要包括运动目标检测、跟踪、姿态估计、碰撞预测等方面。其中,碰撞预测可以应用在广泛的现实场景中,如自动驾驶等。具体到车辆碰撞预测问题而言,其具有:包含自我车辆运动、发生突然、长尾分布场景以及多样的发生方式等特点。复杂的环境给碰撞预测带来了巨大的挑战。

  以下是团队已取得的成果:

  1. "A Single-Pathway Biomimetic Model for Potential Collision Prediction", Proc. Chinese Conf. on Pattern Recognition and Computer Vision (PRCV 2022), Shenzhen, China, December, 2022.

  此研究针对路上车辆碰撞预测问题提出了一种基于生物视觉系统LGMD的改进LGMD2方法SLGMD2。现有的方法普遍不区分第一和第三人称视角,其本质是视频异常检测,只关注于是否发生碰撞而不关注碰撞发生时刻的深度学习方法。LGMD是一种可靠的生物学模型,其机理主要与目标与眼睛的夹角以及角速度大小有关。

  下图给出了LGMD生物机理的数学模型示意图。

  下图给出了关于碰撞预测的问题定义示意图。

  下图给出了SLGMD2与原始LGMD2方法在不同碰撞场景下的预测结果对比图。

2. “A General Inlier Estimation for Moving Camera Motion Segmentation”, IPSJ Transactions on Computer Vision and Applications, Vol. 7, pp. 163 ~ 174, Dec. 2015. (Invited paper)

3. “Inlier Estimation for Moving Camera Motion Segmentation”, Proc. 12th Asian Conf. on Computer Vision (ACCV 2014), (Oral presentation, Acceptance rate: 3.8%), Singapore, November, 2014.

  本文介绍了一种用于移动相机运动分割的通用估计方法。在移动相机视频中,可以理解任意运动是旋转、平移和扩散三种基本运动的不同线性组合。不同于以往的工作,我们提出了一种统一的运动分解模型分析运动的一致性,使得异常运动检测变得容易。此外,移动相机还会引入三维运动,深度不连续性会导致运动不连续性,从而严重破坏了运动的一致性。该方法的优点是不需要假设任何先验知识。

  下图展示了平移场景中三辆车的示例结果。(a)为连续的20帧图像,(b)两个相邻帧的光流,(c)和(d)为在光流上应用修正后的HDD后的旋度和发散分量,(e)为IM图,(f)为异常运动可视化,(g)使用低阶多项式估计的一致运动场,(h)估计的相机运动场,(i)和(j)展示了恢复了的运动物体的运动流,(k)分割结果。

下图展示了使用光流的其他六种方法和我们的方法在具有挑战性的场景中的分割结果:(a)输入视频,从上到下:cars2、people2、forest、store、parachute、traffic,(b)GME-SEG,(c)LS,(d)GD,(e)Filter,(f)RANSAC,(g)FOF,(h)FOF+color+prior,(i)我们的结果,(j)label。

 

4.“Mixed-Motion Segmentation using Helmholtz Decomposition”, Proc. 16th Meeting on Image Recognition and Understanding (MIRU 2013)Outstanding Paper Award, Tokyo, Japan, August, 2013.