比ChatGPT强!Microsoft推出全能型AI Kosmos-1:它能分析图像、处理视频、甚至还会逻辑思考!

0
Microsoft Kosmos 1 CP

虽然说目前已经推出的 ChatGPT 功能属实非常强悍了,基本上它颠覆了人类对于 AI 的看法,毕竟世上没有一款 AI 能够像 ChatGPT 问世之前,能那么顺畅与人类进行交流。话说如此,ChatGPT 缺点还是有的,那就是没办法为我们处理视觉难题及执行视觉文本识别的操作。

相信是看到了这一缺陷,Microsoft 研究人员最近发布论文,推出更强悍的 AI —— Kosmos-1,它是一款全能大型语言模型(Multimodal Large Language Model;MLLM),比 ChatGPT 纯文本的(Large Language Model;LLM)还要强。

根据 Microsoft 研究人员在论文介绍,Kosmos-1 能处理的事物非常多,具体能处理的事物如下:

处理语言任务 Language Task

  • 语言理解
  • 语言生成
  • OCR-free 文本分类

跨模式传输 Cross-modal transfer

  • 常识推理

非语言推理 Nonverbal reasoning

  • 智商IQ 测试

感知语言任务 Perception-language task

  • 图像说明
  • 视觉问答
  • 网页问答

视觉任务 Vision task

  • 零样本图像分类(zero-shot classification, ZSC)
  • 带描述的零样本图像分类(Zero-shot image classification with descriptions, ZSCD)
Microsoft Kosmos 1 1
Microsoft Kosmos 1 2
Microsoft Kosmos 1 3

简单来说,Kosmos-1 可以处理分析图像的内容、解决视觉难题、执行视觉文本识别,以及通过视觉智商测试和理解自然语言指令等等。具体而言,Kosmos-1 可以处理文本、音频、图像和视频等内容。

Microsoft Kosmos 1 4

与此同时,Microsoft 研究人员在论文说到,“作为智能的基本组成部分,多模态感知是实现人工智能的必要条件”。Kosmos-1 论文中的视觉示例显示模型分析图像并回答有关图像的问题,从图像中读取文本,为图像编写标题,并以 22-26% 的准确度进行视觉智商测试。

最后 Microsoft 表示,他们计划向开发人员提供 Kosmos-1 的使用权限,不过研究人员在论文引用的GitHub 页面 没有明显的 Kosmos 特定代码。

想要了解更多有关 Microsoft 研究人员发表的论文,大家能点我(链接)前往相关页面进行查阅哦!

Source :

About author

啊晖

以前喜欢手机,之后喜欢上折叠机,接着再喜欢上电动车🚗

订阅
通知
guest

0 Comments
内联反馈
查看所有评论
0
希望听到您的想法,请评论x