西电新闻网讯(通讯员 王正珏)第8届国际表示学习大会(International Conference on Learning Representation,ICLR,https://iclr.cc/)将于2020年4月26日到4月30日,在非洲埃塞尔比亚首都亚的斯亚贝巴的千年大厅举办。该会议是机器学习和深度学习领域国际最顶级会议之一,在google人工智能领域的top publication排名中,排在第二位。它代表着热门研究领域的最前沿,具有广泛而深远的国际影响力。这也是历史上首次在非洲举办最顶级的机器学习会议。今年,来自雷达信号处理国家级重点实验室陈渤教授团队的博士生张昊(已经毕业前往杜克大学做博士后),田隆,王正珏的有关层次化概率多模态生成模型的论文《Variational Hetero-Encoder Randomnized GANs for Joint Image-Text modeling》被ICLR2020录用。
作为机器学习以及深度表征学习领域的顶级会议之一,ICLR受到来自全世界学术界以及工业界相关研究人员和机构的广泛关注,因而在该会议上发表论文极具挑战性。本届ICLR会议收到投稿数量2594篇,录用论文687篇,接受率为26.5%。
图1
在文本图像多模态建模领域,现有模型大多只在单层上建立双模态之间的关系,同时针对不同的实际任务只能实现图像到文本或者文本到图像的单向转换。另外,基于传统深度网络构建的模型很难解释双模态之间的关系,不利于后续的数据分析和处理。
图2
针对这些问题,本次发表的研究基于团队在深度概率统计模型方面的系列工作,提出了一种全新的深度层次化概率多模态模型,用于同时建模文本和图像数据。该论文利用生成对抗网络建模图像,利用深度概率模型建模文本,并在不同层之间建立了关系,从而实现了图像文本模态之间的双向转换。具体而言,团队首先提出了变分异构多层自编码网络。如图1(a)所示,由图像作为输入,编码推理双模态共享的多层概率隐变量,进而通过概率解码主题模型生成文本。这样可以实现图像到文本的转换。反过来给定文本的情况下,可以利用吉布斯采样推理不同层的概率隐变量,进而通过图1(b)的stackGAN模型,生成图像,实现文本到图像的转换。为了更好地建模两个模态之间的层次化关系,团队又提出了如图1(c)所示的raster-scan-GAN模型,进而实现了图像从语义粗糙到语义精细的生成过程,如图2所示。实验结果表明,模型不仅仅在多个文本图像联合学习任务中取得优异的性能,同时可以挖掘两个模态在不同层之间存在的关系,这为后续的分析和数据处理提供了可解释的依据。
通过若干年的努力,团队基于概率框架已构建了一套完整的概率统计深度模型家族,分别是概率深度全连接生成模型(NIPS2015、ICML2017)、概率深度全连接自编码模型(ICLR2018)、概率深度动态网络(NIPS2018)、概率深度卷积网络(ICML2019)以及概率深度多模态模型(AAAI2018、ICLR2020)。为概率模型与传统深度网络的结合提供了关键技术支撑和实际应用突破。
此次工作的录用,不仅向外界充分展示了beoplay体育提现在机器学习领域的研究水平和研究成果,扩大了学校的学术影响力,同时也有助于学校与该领域顶尖学者的交流以及对该领域最新研究进展的了解。
论文工作详情包括源程序请参考陈渤教授主页:http://web.xidian.edu.cn/bchen/。