多模态的难点——贯穿整个MMT的发展

MMT前期聚焦于Representation、Fusion、Translation这三个挑战上,估计是因为神经网络模型天然利于解决这三个问题,后期热度消退时更加关注Alignment和Co-learning两个挑战,估计是因为这两个对模型的改进要求更多一些。


关于多模态的难点、挑战分析请点击:

Multimodal Machine Learning : A survey and Taxonomy

人们对MT的理解

学术界对MT的认知不仅仅是一种语言翻译到另一种语言,但主流观点依旧是text2text(Wiki上对MT的定义中允许speech2speech),也就是大家对于多模态这一方法,仅仅视作为MT的一种辅助手段。现阶段多模态的实际落地应用研究升温,MMT也作为MT的一个主要子任务存在。


具体的MT信息请点击:

机器翻译

MT、MMT和NMT的关系 + MMT的发展趋势 + MMT在MT中的地位

MMT与MT的关系:MMT是MT的一个子任务,作为一种提供其他模态信息的辅助手段对MT进行补充。

MMT与NMT的关系:NMT是实现MMT的一种方法,在此之前也有人使用传统的机器学习方法融合不同模态的信息,而NN的发展带动了嵌入式向量、向量交互、处理时序信息等的发展,先是带动了CV的发展,又进一步扩展到与NLP相关的领域(Image Caption),最后到MT的领域,NN的方法适用于解决MMT的主要挑战,从而为攻克MMT的主要难点打通了道路。

MMT在2016、2017、2018这三年都是WMT的主要任务之一,而2019、2020在WMT的主要任务中缺席,这主要是因为MMT的论文增长主要是由模型带来的,学者们通过尝试组合不同的模型来改善MMT的主要挑战,2014~2017都有新的神经网络问世,进一步带动了MMT的研究,而在之后相对沉寂。

ACL2020举办了一个ALVR的workshop,主要研究Language-Vision的进展。总体来说,多模态是热点,但是MMT在多模态里相对沉寂。

虽然19年的ACL将MMT视为一个重要的聚合信息的方向,但现在的MMT对MT来说,研究相对较少,因为大家追热点,而修改已有模型的热点过了,所以19和20年的MMT论文,更多地关注具体的应用方向(比如Vision and language Navigation)、改善MT的难点(Rare word embedding、Rare source)以及MMT依旧存在的难点(co-learning、translation)等,也就是领域更加细致;除此之外,也有人在模仿人类的思考方式上建立模型(Imagination、Cyclic)。

ACL2019的PPT

ACL2019的PPT


在多模态的发展视角下看MT、MMT和NMT的关系: