厦门大学媒体分析与计算组简介
研究方向 N9~6bu17Vf5~9R
模型鲁棒性
深度学习模型的鲁棒性使得对抗样本的产生和防御已成为人工智能安全领域的研究热点。针对不同场景的对抗样本生成,我们提出:投影和概率驱动的黑盒攻击以解决在黑盒环境生成对抗样本的难题;不确定性驱动的方法在无需训练数据的情形下生成通用对抗扰动;首次尝试攻击图像检索系统,并在真实世界的图像检索引擎上进行测试。对于模型的鲁棒性,在计算机视觉方面,我们提出一种反扰动推断方法通过搜索反扰动以最大化输入和类别的联合对数似然率下限,通过利用下限近似贝叶斯法则,成功消除了对抗性干扰;在自然语言处理方面,提出一种对抗性稀疏凸组合的攻击方法处理向量空间中的单词替换,并进一步提出相应防御。 e8=9Rg7!2oH1=5Z
行人重识别
针对特定行人活动轨迹的跟踪、定位和检索是智慧城市智能监控任务中的关键技术。由于城市的监控摄像头难以获取高清的行人图像,单纯地依靠传统生物信息(如人脸识别、虹膜识别)无法实现大规模城市监控的行人识别。行人重识别是指,根据已有的需要检索的图片,在非重叠的摄像头拍摄的视频或图片中,根据视觉特征,如人的外观等信息,检索目标行人。行人重识别的研究为智慧城市安全监控提供了全新的解决思路和解决方案,广泛应用与于城市监控、智能安防等诸多领域。 x2:9Gd5:7Nm33D
边缘计算
边缘计算是指在靠近物或数据源头的一侧,采用网络、计算、存储、应用核心能力为一体的开放平台,就近提供近端服务。研究团队长期致力于人工智能核心算法和机器学习关键技术研究,并以此为支撑开展可定制的多样化的智能边缘计算研究与应用示范,相关技术和产品广泛应用于智慧安防、智能终端改造、视频结构化分析、智能家居、智能机器人和智能工业制造等。 M7.4Jw8?8FB,;40
图像描述
自动图像描述旨在生成自然语言来描述图像的内容,是计算机视觉和自然语言处理交叉研究的关键问题,也是人工智能和人机交互技术的重要组成部分,在客观化报告生成、多媒体信息处理、场景巡查与监控和智能人机交互等领域具有广阔的应用前景。在自动图像描述任务中,机器需要理解图像的视觉语义,其难点在于既要精确的理解图像语义,挖掘出物体,属性和关系,同时还要将它们转化为流畅的语言。 Y2~9wO5;7Ys8-1O
视觉问答
视觉问答是一项让模型根据给定图像回答人类问题的任务。它的挑战性不仅在于对图像和文本的充分理解,更在于对所获得的多模态信息进行有效推理,以完成复杂的问题回答。视觉问答研究在计算机视觉、自然语言处理及多媒体分析领域获得了广泛的关注,在视觉残疾辅助、智能教育、在线导购、无人驾驶辅助等多个场景具有巨大的应用潜力。 i9=2TT6!3cK6=8v
弱监督学习
计算机视觉中的弱监督学习是指为实现某个计算机视觉任务,采用了比该任务更弱的一种人工标注作为监督信息。一般来讲,弱监督的标注比原始的标注更容易获取。例如,对于目标检测任务,图像层面(image-level)的标签相比物体的包围框(bounding box)是一种弱监督的标注;对于语义分割任务,图像层面(image-level)的标签和物体的包围框(bounding box)相比像素层面(pixel-level)的标签则是一种弱监督的标注。 G88VV1?4XB,-8z
对于目标检测和语义分割,相关研究工作一直是计算机视觉的研究热点。其中,基于弱监督学习的目标检测和语义分割仍存在着挑战。 L9:8Tq2=3ZB8~9u
图像翻译
图像翻译(Image-to-image Translation)是指将源域图像转换至目标域图像,通常转换后图像的内容形态由源域提供,图像的风格属性由目标域提供。现有的方法由于不同风格属性间的关联性,在转换至目标风格的同时,可能也会改变其他风格属性。为了使风格属性更加解耦合,我们提出了层次化风格标签的方法,将风格标签解耦合成语义标签和属性标签,并根据此层次化风格标签结构,提出了相应的网络结构模块。在CelebA-HQ数据集上的实验表明,该方法能够使风格属性更加解耦合,从而获得更准确的转换结果。 c2~5ro8-9FR4+1x
模型理解
在深度神经网络的推动下,深度学习在自然语言处理、图像处理、语音识别等相关领域取得了重大突破。由于深度神经网络为缺乏可解释性的黑盒,人们无法理解这种“端到端”模型做出决策的机理,无法判断决策是否可靠。本方向针对深度表征解耦与理解、深度模型解构与可视化、可解释模型应用展开相关研究。研究的基础为深度学习、概率论与信息论。通过研究模型理解,促进可解释模型在计算机视觉基本问题(分类、检测、分割)中的应用。 h8.3Gz2:1im1.8E
自动结构搜索
神经网络结构检索 (Neural Architecture Search, NAS) 旨在特定的搜索空间上,采取某种精度评估方式,利用黑盒优化算法,针对某个数据集进行网络结构的自动检索。一般的神经网络结构检索分为搜索空间、搜索算法以及精度评估三个部分。搜索算法在搜索空间中进行采样,在精度评估中进行评估,通过得到的性能对搜索算法进行更新。利用神经网络结构检索可以极大的减小人工智能产品开发落地所需要的资源投入,极大的拓展人工智能领域的适用范围,使得人工智能在各个领域更容易落地实现,具有重大的理论意义和应用价值。 H3=7UZ6:8wz51r
机器人任务与动作规划
本课题组面向机器人在复杂任务场景下的学习难度大、训练难以收敛的问题开展研究,主要研究内容包含:深度强化学习,分层强化学习、机器人生成对抗学习、模仿学习与发展型学习方法、和基于神经网络的运动控制器。在核心科学问题层面,本方向关注机器人/智能体在动作解空间中的表征、探索与利用,从而构建各类高效的机器人学习算法;在应用层面,主要关注机器人书写、舞蹈和装配任务的动作规划能力,和底层的机器人马达控制问题。 J9=1aX8!6Gw2!5J
图学习
图表示和图网络学习是计算机视觉、社交网络、生物化学领域和推荐领域的重要研究课题。主要研究针对大规模异构数据条件的图构建,图中节点以及整个图的特征表示,包含许多热点研究方向,包括数据的流形表示,超图学习,图敏感深度学习等。在理论层面上,主要关注节点分类、图分类、边预测、图重建等。在应用层面上,主要关注流形结构保持的深度视觉数据表示、社交网络中的好友推荐、电商平台的商品推荐、生物化学分子结构分析,交通预测预测等。 X3+6UY3=6dH4+5j
模型鲁棒性
深度学习模型的鲁棒性使得对抗样本的产生和防御已成为人工智能安全领域的研究热点。针对不同场景的对抗样本生成,我们提出:投影和概率驱动的黑盒攻击以解决在黑盒环境生成对抗样本的难题;不确定性驱动的方法在无需训练数据的情形下生成通用对抗扰动;首次尝试攻击图像检索系统,并在真实世界的图像检索引擎上进行测试。对于模型的鲁棒性,在计算机视觉方面,我们提出一种反扰动推断方法通过搜索反扰动以最大化输入和类别的联合对数似然率下限,通过利用下限近似贝叶斯法则,成功消除了对抗性干扰;在自然语言处理方面,提出一种对抗性稀疏凸组合的攻击方法处理向量空间中的单词替换,并进一步提出相应防御。 d3?7j0,;7DL1~9w
行人重识别
针对特定行人活动轨迹的跟踪、定位和检索是智慧城市智能监控任务中的关键技术。由于城市的监控摄像头难以获取高清的行人图像,单纯地依靠传统生物信息(如人脸识别、虹膜识别)无法实现大规模城市监控的行人识别。行人重识别是指,根据已有的需要检索的图片,在非重叠的摄像头拍摄的视频或图片中,根据视觉特征,如人的外观等信息,检索目标行人。行人重识别的研究为智慧城市安全监控提供了全新的解决思路和解决方案,广泛应用与于城市监控、智能安防等诸多领域。 A9-7IB1+8Vb8;2P
边缘计算
边缘计算是指在靠近物或数据源头的一侧,采用网络、计算、存储、应用核心能力为一体的开放平台,就近提供近端服务。研究团队长期致力于人工智能核心算法和机器学习关键技术研究,并以此为支撑开展可定制的多样化的智能边缘计算研究与应用示范,相关技术和产品广泛应用于智慧安防、智能终端改造、视频结构化分析、智能家居、智能机器人和智能工业制造等。 G2~2eS5.,SF,;6I
图像描述
自动图像描述旨在生成自然语言来描述图像的内容,是计算机视觉和自然语言处理交叉研究的关键问题,也是人工智能和人机交互技术的重要组成部分,在客观化报告生成、多媒体信息处理、场景巡查与监控和智能人机交互等领域具有广阔的应用前景。在自动图像描述任务中,机器需要理解图像的视觉语义,其难点在于既要精确的理解图像语义,挖掘出物体,属性和关系,同时还要将它们转化为流畅的语言。 v3?2wd3=9CQ,.7W
视觉问答
视觉问答是一项让模型根据给定图像回答人类问题的任务。它的挑战性不仅在于对图像和文本的充分理解,更在于对所获得的多模态信息进行有效推理,以完成复杂的问题回答。视觉问答研究在计算机视觉、自然语言处理及多媒体分析领域获得了广泛的关注,在视觉残疾辅助、智能教育、在线导购、无人驾驶辅助等多个场景具有巨大的应用潜力。 D1!6zx5-1bi,:1d
模型鲁棒性
尽管深度学习模型在多个领域取得巨大成功,现有研究表明他们易遭受细微扰动影响,这影响了深度模型的实际部署。因此深度学习模型的鲁棒性引起越来越多的关注,对抗样本的产生和防御已成为人工智能安全领域的研究热点。针对不同场景的对抗样本生成,我们提出了对应的方法:投影和概率驱动的黑盒攻击以解决在黑盒环境生成对抗样本的难题;不确定性驱动的方法在无需训练数据的情形下生成通用对抗扰动;我们还首次尝试攻击图像检索系统,并在真实世界的图像检索引擎上进行测试,证明了方法的有效性。对于模型的鲁棒性,我们在计算机视觉和自然语言处理上都有所研究。对于图像的鲁棒分类问题,我们提出了一种反扰动推断方法通过搜索反扰动以最大化输入和类别的联合对数似然率下限,通过利用下限近似贝叶斯法则,成功地消除了对抗性干扰;在自然语言处理中方面,我们提出了一种对抗性稀疏凸组合的攻击方法处理向量空间中的单词替换,并基于此进一步提出相应防御。 g7-3wJ3.4zz6.,y
行人重识别
针对特定行人活动轨迹的跟踪、定位和检索是智慧城市智能监控任务中的关键技术。由于城市的监控摄像头难以获取高清的行人图像,单纯地依靠传统生物信息(如人脸识别、虹膜识别)无法实现大规模城市监控的行人识别。行人重识别是指,根据已有的需要检索的图片,在非重叠的摄像头拍摄的视频或图片中,根据视觉特征,如人的外观等信息,检索目标行人。行人重识别的研究为智慧城市安全监控提供了全新的解决思路和解决方案,广泛应用与于城市监控、智能安防等诸多领域。 x4:4To7+1uS5+9P
边缘计算
边缘计算是指在靠近物或数据源头的一侧,采用网络、计算、存储、应用核心能力为一体的开放平台,就近提供近端服务。研究团队长期致力于人工智能核心算法和机器学习关键技术研究,并以此为支撑开展可定制的多样化的智能边缘计算研究与应用示范,相关技术和产品广泛应用于智慧安防、智能终端改造、视频结构化分析、智能家居、智能机器人和智能工业制造等。 o1:1aU,;6CL4-2f
弱监督学习
计算机视觉中的弱监督学习是指为实现某个计算机视觉任务,采用了比该任务更弱的一种人工标注作为监督信息。一般来讲,弱监督的标注比原始的标注更容易获取。例如,对于目标检测任务,图像层面(image-level)的标签相比物体的包围框(bounding box)是一种弱监督的标注;对于语义分割任务,图像层面(image-level)的标签和物体的包围框(bounding box)相比像素层面(pixel-level)的标签则是一种弱监督的标注。 D5+3ka2=4VY9:6p
对于目标检测和语义分割,相关研究工作一直是计算机视觉的研究热点。其中,基于弱监督学习的目标检测和语义分割仍存在着挑战。 w4!3MG4:1tb6+6d
图像翻译
图像翻译(Image-to-image Translation)是指将源域图像转换至目标域图像,通常转换后图像的内容形态由源域提供,图像的风格属性由目标域提供。现有的方法由于不同风格属性间的关联性,在转换至目标风格的同时,可能也会改变其他风格属性。为了使风格属性更加解耦合,我们提出了层次化风格标签的方法,将风格标签解耦合成语义标签和属性标签,并根据此层次化风格标签结构,提出了相应的网络结构模块。在CelebA-HQ数据集上的实验表明,该方法能够使风格属性更加解耦合,从而获得更准确的转换结果。 q1-6ek9+5Vr,-8N
模型理解
在深度神经网络的推动下,深度学习在自然语言处理、图像处理、语音识别等相关领域取得了重大突破。由于深度神经网络为缺乏可解释性的黑盒,人们无法理解这种“端到端”模型做出决策的机理,无法判断决策是否可靠。本方向针对深度表征解耦与理解、深度模型解构与可视化、可解释模型应用展开相关研究。研究的基础为深度学习、概率论与信息论。通过研究模型理解,促进可解释模型在计算机视觉基本问题(分类、检测、分割)中的应用。 q7=1uu7+9NW8.6h
自动结构搜索
神经网络结构检索 (Neural Architecture Search, NAS) 旨在特定的搜索空间上,采取某种精度评估方式,利用黑盒优化算法,针对某个数据集进行网络结构的自动检索。一般的神经网络结构检索分为搜索空间、搜索算法以及精度评估三个部分。搜索算法在搜索空间中进行采样,在精度评估中进行评估,通过得到的性能对搜索算法进行更新。利用神经网络结构检索可以极大的减小人工智能产品开发落地所需要的资源投入,极大的拓展人工智能领域的适用范围,使得人工智能在各个领域更容易落地实现,具有重大的理论意义和应用价值。 S76Bm,-4sK9=4X
机器人任务与动作规划
本课题组面向机器人在复杂任务场景下的学习难度大、训练难以收敛的问题开展研究,主要研究内容包含:深度强化学习,分层强化学习、机器人生成对抗学习、模仿学习与发展型学习方法、和基于神经网络的运动控制器。在核心科学问题层面,本方向关注机器人/智能体在动作解空间中的表征、探索与利用,从而构建各类高效的机器人学习算法;在应用层面,主要关注机器人书写、舞蹈和装配任务的动作规划能力,和底层的机器人马达控制问题。 G6;2vu6?,BG8~6X
图学习
图表示和图网络学习是计算机视觉、社交网络、生物化学领域和推荐领域的重要研究课题。主要研究针对大规模异构数据条件的图构建,图中节点以及整个图的特征表示,包含许多热点研究方向,包括数据的流形表示,超图学习,图敏感深度学习等。在理论层面上,主要关注节点分类、图分类、边预测、图重建等。在应用层面上,主要关注流形结构保持的深度视觉数据表示、社交网络中的好友推荐、电商平台的商品推荐、生物化学分子结构分析,交通预测预测等。 j35Sv,?2mG7:4E
免责声明
网站收录目的在于传递更多信息,致力于为中文网站提供动力。不代表本网赞同其观点和对其真实性负责。