Main Idea

多模态研究分为五类

Representation

多模态最基础的任务在于对不同模态的数据进行表示——如何表示不同模态使得它们可以交互、去除冗余，进而为下一阶段的“融合”做准备。

难点在于不同模态的数据有不同的结构、特征：比如语言是符号，而图像和视频则是信号。

多模态的其中一个任务就是进行模态之间的转换（翻译）——如何转换不同的模态。

难点在于模态之间的关系是开放、主观的：比如一个句子描绘出来的画面可以有不同的风格、结构等等。

对齐，也是多模态的主要任务之一——如何让不同模态的子元素进行对齐。

难点在于模态的异构性，也有时序性：比如如何将一份菜谱和视频的进度对应起来。

多模态的核心任务就是融合——如何整合不同的模态信息来完成任务。

难点不仅仅来自模态的异构性，还有模态之间蕴含的信息、噪音的比重不同。

因为资源稀缺的原因，协同学习也是多模态的挑战之一——如何从一个模态中学习并将所学到的知识应用到其他模态上。