比GPT-3.5强！Microsoft官宣下周将推出进阶版AI模型GPT-4：能分析图像、处理视频等任务

众所周知，下周四（大马时间晚上 11 点） Microsoft 即将举办一向线上发表会，据了解 Microsoft 将会在会议上发表有关 AI 的最新进展。而这项消息获得 Microsoft 德国技术长兼 AI 部门主管 Andreas Braun 确认，甚至还表示 Microsoft 将会在下周的发布会推出更进阶版的 AI 模型 —— GPT-4！

“We will present GPT-4 next week. We will have multimodal models that will offer completely different possibilities. For example, videos.»
Andreas Braun, director of technology at Microsoft Germany

根据 Andreas Braun 近日在一项活动上透露，Microsoft 即将推出的 GPT-4 将会提供多模态模型（multimodal models）来创造更多可能性，例如处理视觉上的工作，比如视频。同时 Andreas Braun 强调，相较于目前的 GPT-3.5 版本，GPT-4 将会是一个“Game Changer”游戏改变者。

要知道当前基于 GPT-3.5 搭建而成的 AI 即便是只能处理纯文本信息，它的表现也非常的强悍了。如果 GPT-4 的功能再获得进化，除了能处理文本任务之外，它还能处理视觉类型的内容，那么这势必会对更多领域产生深远影响。

这边先给大家一个关于 GPT-4 简单的概念，相信大家如果有留意到，近期 Microsoft 推出堪称比现有 ChatGPT 还要强悍的 AI，Kosmos-1 的全能大型语言模型（Multimodal Large Language Model；MLLM），它比 ChatGPT 纯文本的（Large Language Model；LLM）还要强。

Kosmos-1 可以处理分析图像的内容、解决视觉难题、执行视觉文本识别，以及通过视觉智商测试和理解自然语言指令等等。具体而言，Kosmos-1 可以处理文本、音频、图像和视频等内容。

同时，Kosmos-1 能处理的事物非常多，具体能处理的事物如下：

处理语言任务 Language Task

语言理解
语言生成
OCR-free 文本分类

跨模式传输 Cross-modal transfer

常识推理

非语言推理 Nonverbal reasoning

智商IQ 测试

感知语言任务 Perception-language task

图像说明
视觉问答
网页问答

视觉任务 Vision task

零样本图像分类(zero-shot classification, ZSC)
带描述的零样本图像分类(Zero-shot image classification with descriptions, ZSCD)

Source :

heise, heise

主菜单