Abstract
2017年的多模态研究分析,分类,并探索研究的方向。
多模态研究分为五类
多模态最基础的任务在于对不同模态的数据进行表示——如何表示不同模态使得它们可以交互、去除冗余,进而为下一阶段的“融合”做准备。
难点在于不同模态的数据有不同的结构、特征:比如语言是符号,而图像和视频则是信号。
多模态的其中一个任务就是进行模态之间的转换(翻译)——如何转换不同的模态。
难点在于模态之间的关系是开放、主观的:比如一个句子描绘出来的画面可以有不同的风格、结构等等。
对齐,也是多模态的主要任务之一——如何让不同模态的子元素进行对齐。
难点在于模态的异构性,也有时序性:比如如何将一份菜谱和视频的进度对应起来。
多模态的核心任务就是融合——如何整合不同的模态信息来完成任务。
难点不仅仅来自模态的异构性,还有模态之间蕴含的信息、噪音的比重不同。
因为资源稀缺的原因,协同学习也是多模态的挑战之一——如何从一个模态中学习并将所学到的知识应用到其他模态上。