Abstract

2017年的多模态研究分析,分类,并探索研究的方向。

Main Idea

多模态研究分为五类

Representation

多模态最基础的任务在于对不同模态的数据进行表示——如何表示不同模态使得它们可以交互、去除冗余,进而为下一阶段的“融合”做准备。

难点在于不同模态的数据有不同的结构、特征:比如语言是符号,而图像和视频则是信号。

Translation

多模态的其中一个任务就是进行模态之间的转换(翻译)——如何转换不同的模态。

难点在于模态之间的关系是开放、主观的:比如一个句子描绘出来的画面可以有不同的风格、结构等等。

Alignment

对齐,也是多模态的主要任务之一——如何让不同模态的子元素进行对齐。

难点在于模态的异构性,也有时序性:比如如何将一份菜谱和视频的进度对应起来。

Fusion

多模态的核心任务就是融合——如何整合不同的模态信息来完成任务。

难点不仅仅来自模态的异构性,还有模态之间蕴含的信息、噪音的比重不同。

Co-learning

因为资源稀缺的原因,协同学习也是多模态的挑战之一——如何从一个模态中学习并将所学到的知识应用到其他模态上。