虽然说目前已经推出的 ChatGPT 功能属实非常强悍了,基本上它颠覆了人类对于 AI 的看法,毕竟世上没有一款 AI 能够像 ChatGPT 问世之前,能那么顺畅与人类进行交流。话说如此,ChatGPT 缺点还是有的,那就是没办法为我们处理视觉难题及执行视觉文本识别的操作。
相信是看到了这一缺陷,Microsoft 研究人员最近发布论文,推出更强悍的 AI —— Kosmos-1,它是一款全能大型语言模型(Multimodal Large Language Model;MLLM),比 ChatGPT 纯文本的(Large Language Model;LLM)还要强。
根据 Microsoft 研究人员在论文介绍,Kosmos-1 能处理的事物非常多,具体能处理的事物如下:
处理语言任务 Language Task
- 语言理解
- 语言生成
- OCR-free 文本分类
跨模式传输 Cross-modal transfer
- 常识推理
非语言推理 Nonverbal reasoning
- 智商IQ 测试
感知语言任务 Perception-language task
- 图像说明
- 视觉问答
- 网页问答
视觉任务 Vision task
- 零样本图像分类(zero-shot classification, ZSC)
- 带描述的零样本图像分类(Zero-shot image classification with descriptions, ZSCD)



简单来说,Kosmos-1 可以处理分析图像的内容、解决视觉难题、执行视觉文本识别,以及通过视觉智商测试和理解自然语言指令等等。具体而言,Kosmos-1 可以处理文本、音频、图像和视频等内容。

与此同时,Microsoft 研究人员在论文说到,“作为智能的基本组成部分,多模态感知是实现人工智能的必要条件”。Kosmos-1 论文中的视觉示例显示模型分析图像并回答有关图像的问题,从图像中读取文本,为图像编写标题,并以 22-26% 的准确度进行视觉智商测试。
最后 Microsoft 表示,他们计划向开发人员提供 Kosmos-1 的使用权限,不过研究人员在论文引用的GitHub 页面 没有明显的 Kosmos 特定代码。
想要了解更多有关 Microsoft 研究人员发表的论文,大家能点我(链接)前往相关页面进行查阅哦!
Source :
No comments