发布者认证信息(营业执照和身份证)未完善,请登录后完善信息登录
 终于领会首次超越人类:“读图会意”这件事,AI 比你眼睛更毒辣 - 最新消息 - 客集网
Hi,你好,欢迎来到客集网
  • 产品
  • 求购
  • 公司
  • 展会
  • 招商
  • 资讯
  • 解梦
当前位置: 首页 » 资讯 » 机械电子 找商家、找信息优选VIP,安全更可靠!
终于领会首次超越人类:“读图会意”这件事,AI 比你眼睛更毒辣 - 最新消息
发布日期:2023-09-30 10:27:23  浏览次数:10

在超越人类这件事上,AI 又拿下一分。

就在最近,国际权威机器视觉问答榜单 VQA Leaderboard,更新了一项数据:

AI 在“读图会意”任务中,准确率达到了 %。

要知道,我们人类在这个任务中的基准线,也才 %。

而解锁这一成就的,是来自阿里巴巴达摩院团队的 AliceMind-MMU。

而此举也就意味着,AI 于 2015 年、2018 年分别在视觉识别和文本理解超越人类之后,在多模态技术方面也取得了突破!

AI 比你更会看图

这个 AI 有多会看图?

来看下面几个例子就知道了。

当你问 AI:“这些玩具用来做什么的?”

它就会根据小熊穿的礼服,回答道:

婚礼。

给 AI 再提一个问题:“男人的橄榄球帽代表哪只球队?”

它会根据帽子中的“B”字母回答:

波士顿球队。

加大挑战难度再来一个。

“图中玩具人的 IP 出自哪部电影?”

这时候,AI 就会根据图中的玩具,还有战斗场景等信息,做一个推理。

不过最后还是精准的给出了答案:

星球大战。

再例如下面这些例子中,AI 都会捕捉图片中的细节信息,来精准回答提出的问题。

嗯,可以说是细致入微了。

怎么做到的?

可能上面的这些案例,对于人类来说并不是很困难。

但对于 AI 来说,可不是件容易的事情。

一个核心难点就是:

需要在单模态精准理解的基础上,整合多模态的信息进行联合推理认知,最终实现跨模态理解。

怎么破?

阿里达摩院的做法是,对 AI 视觉-文本推理体系进行了系统性的设计,融合了大量的创新算法。

具体来看,大致可以分为四个内容:

多样性的视觉特征表示:从各方面刻画图片的局部和全局语义信息,同时使用 Region,Grid,Patch 等视觉特征表示,可以更精准地进行单模态理解;

基于海量图文数据和多粒度视觉特征的多模态预训练:用于更好地进行多模态信息融合和语义映射,提出了 SemVLP、Grid-VLP、E2E-VLP 和 Fusion-VLP 等预训练模型。

自适应的跨模态语义融合和对齐技术:在多模态预训练模型中加入 Learning to Attend 机制,来进行跨模态信息地高效深度融合。

Mixture of Experts (MOE)技术:进行知识驱动的多技能 AI 集成。

据了解,模型中涉及技术还得到了专业的认可。

例如多模态预训练模型 E2E-VLP,已经被国际顶级会议 ACL2021 接受。

关于 VQA

VQA,可以说是 AI 领域难度最高的挑战之一。

而对于单一 AI 模型来说,VQA 考卷难度堪称“变态”。

在测试中,AI 需要根据给定图片及自然语言问题,生成正确的自然语言回答。

这意味着单个 AI 模型,需要融合复杂的计算机视觉及自然语言技术:

首先对所有图像信息进行扫描。

再结合对文本问题的理解,利用多模态技术学习图文的关联性、精准定位相关图像信息。

最后根据常识及推理回答问题。

但解决 VQA 的挑战,对研发通用人工智能具有重要意义。

因此,全球计算机视觉顶会 CVPR 从 2015 年起连续 6 年举办 VQA 挑战赛。

吸引了包括微软、Facebook、斯坦福大学、阿里巴巴、百度等众多顶尖机构参与。

同时,也形成了国际上规模最大、认可度最高的 VQA 数据集,其包含超 20 万张真实照片、110 万道考题。

据了解,今年 6 月,阿里达摩院在 VQA 2021 Challenge 的 55 支提交队伍中夺冠,成绩领先第二名约 1 个百分点、去年冠军 个百分点。

而仅仅在 2 个月后的今天,达摩院再次以 % 的准确率创造 VQA Leaderboard 全球纪录。

达摩院对此评价道:

这一结果意味着,AI 在封闭数据集内的 VQA 表现已媲美人类。

VIP企业最新发布
最新VIP企业
背景开启

客集网是一个开放的平台,信息全部为用户自行注册发布!并不代表本网赞同其观点或证实其内容的真实性,需用户自行承担信息的真实性,图片及其他资源的版权责任! 本站不承担此类作品侵权行为的直接责任及连带责任。

如若本网有任何内容侵犯您的权益,请联系 QQ: 1130861724

网站首页 | 信息删除 | 付款方式 | 关于我们 | 联系方式 | 使用协议 | 版权隐私 | 网站地图 (c)2014-2024 Rights Reserved 鄂公网安备42018502007153 SITEMAPS 联系我们 | 鄂ICP备14015623号-21

返回顶部