首页 > 编程知识 正文

facebook人工智能研究(facebook AI平台)

时间:2023-05-05 17:19:29 阅读:94583 作者:3259

夏乙出生于凹非寺

量子报道|公众号QbitAI

——猫戴着什么?

——帽子。

——的天气怎么样?

——下雨。

——披萨上面是什么?

——蘑菇。

看图回答这些问题对我们人类来说很容易,但要让AI掌握这个技能,就需要探索。

Facebook为了这一领域的探险家们,刚刚开放了一个叫Pythia的模块化视觉问答框架。

我们还将从弗吉尼亚理工大学和乔治亚理工大学举办的视觉测验(Visual Question Ansering )竞赛VQA Challenge开始演讲。

在比赛中,Facebook AI研究院(FAIR )队由A-STAR夺冠。 总成绩为72.41分位居第一,在(上图的是/否)、其他) Other ) 2类问题中也位居第一,分别获得87.7分和63.95分,数学) Number )成绩稍差,为51.51分、不合格、第6位

其他参加者可以回答“是/否”。 回答的数字不合格,但回答零散的其他问题也在及格线上徘徊。

根据冠军FAIR的观察,目前的视觉问答amp; a(vqa )模型有提问码、图像特征提取、回答空间分类这几个模块。

因此,他们希望为VQA领域构建一个简单的模块化模型开发平台。 另外,也可能可以用于看图对话。

构建平台的第一步是开放源代码A-STAR参与模式的基础框架Pythia,当前版本号v0.1。

奠定Pythia基础的,是2017年的vqa挑战冠军、Peter Anderson等人提出的Bottom-Up and Top-Down Attention模型。

Bottom-Up是指该模型以ResNet-101为基干网络,利用Visual Genome数据集事先训练好的Faster-RCNN,利用自下而上的注意机制提取图像特征。

另一方面,所谓Top-Down,是指根据问题(现在的任务)计算图像区域上的注意力分布。

基于这个模型,FAIR团队进行了一些调整。

例如,用权重标准化ReLU代替up-down模型的双曲正切激活函数,用Adamax优化模型,增大学习率。 例如,将bottom-up模型的目标检测模型置换为Detectron的FPN,对所使用的数据集、Visual Genome、Visual Dialog等也进行了数据放大。

各模块的优化提高了模型的性能。

BTW,Facebook的参赛队伍和框架的名字没有深刻的含义。

队伍的名字——A-STAR的意思是,和星星没有太大关系,能够看、说、行动、推理的代理人(Agents that See,Talk,Act,and Reason )

帧名Pythia,也就是希腊神话中的皮蒂亚,德尔菲亚波罗神庙中的mmdgz。 mmdgz的重要工作之一是回答问题。

如果你也想做一个看图回答问题的模型,请收到这个paper :

pythiav 0.1: thewinningentrytothevqachallenge 2018

玉江,Vivek Natarajan,Xinlei Chen,Marcus Rohrbach,Dhruv Batra,Devi Parikh

359 Arxiv.org/pdf/1807.09956.pdf

开源代码:

359 Github.com /脸书研究/py thia

为其奠定基础的底部-向上和向下注意事项:

359 Github.com /增强园- Hu /底部-增强- vqa

结束了

认真招募

量子在招聘编辑/记者,工作地点在北京中关村。 期待有才华和热情的同学参加! 有关详细信息,请在量子位公众号(QbitAI )的对话界面中返回“招聘”两个字符。

量子比特QbitAI 头条号合同作者

' '跟踪AI技术和产品的新动态

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。