众所周知,下周四(大马时间晚上 11 点) Microsoft 即将举办一向线上发表会,据了解 Microsoft 将会在会议上发表有关 AI 的最新进展。而这项消息获得 Microsoft 德国技术长兼 AI 部门主管 Andreas Braun 确认,甚至还表示 Microsoft 将会在下周的发布会推出更进阶版的 AI 模型 —— GPT-4!
“We will present GPT-4 next week. We will have multimodal models that will offer completely different possibilities. For example, videos.»
Andreas Braun, director of technology at Microsoft Germany

根据 Andreas Braun 近日在一项活动上透露,Microsoft 即将推出的 GPT-4 将会提供多模态模型(multimodal models)来创造更多可能性,例如处理视觉上的工作,比如视频。同时 Andreas Braun 强调,相较于目前的 GPT-3.5 版本,GPT-4 将会是一个“Game Changer”游戏改变者。

要知道当前基于 GPT-3.5 搭建而成的 AI 即便是只能处理纯文本信息,它的表现也非常的强悍了。如果 GPT-4 的功能再获得进化,除了能处理文本任务之外,它还能处理视觉类型的内容,那么这势必会对更多领域产生深远影响。

这边先给大家一个关于 GPT-4 简单的概念,相信大家如果有留意到,近期 Microsoft 推出堪称比现有 ChatGPT 还要强悍的 AI,Kosmos-1 的全能大型语言模型(Multimodal Large Language Model;MLLM),它比 ChatGPT 纯文本的(Large Language Model;LLM)还要强。


Kosmos-1 可以处理分析图像的内容、解决视觉难题、执行视觉文本识别,以及通过视觉智商测试和理解自然语言指令等等。具体而言,Kosmos-1 可以处理文本、音频、图像和视频等内容。
同时,Kosmos-1 能处理的事物非常多,具体能处理的事物如下:
处理语言任务 Language Task
- 语言理解
- 语言生成
- OCR-free 文本分类
跨模式传输 Cross-modal transfer
- 常识推理
非语言推理 Nonverbal reasoning
- 智商IQ 测试
感知语言任务 Perception-language task
- 图像说明
- 视觉问答
- 网页问答
视觉任务 Vision task
- 零样本图像分类(zero-shot classification, ZSC)
- 带描述的零样本图像分类(Zero-shot image classification with descriptions, ZSCD)
No comments