比GPT-3.5强!Microsoft官宣下周将推出进阶版AI模型GPT-4:能分析图像、处理视频等任务

0
GPT 4 CP

众所周知,下周四(大马时间晚上 11 点) Microsoft 即将举办一向线上发表会,据了解 Microsoft 将会在会议上发表有关 AI 的最新进展。而这项消息获得 Microsoft 德国技术长兼 AI 部门主管 Andreas Braun 确认,甚至还表示 Microsoft 将会在下周的发布会推出更进阶版的 AI 模型 —— GPT-4!

“We will present GPT-4 next week. We will have multimodal models that will offer completely different possibilities. For example, videos.»

Andreas Braun, director of technology at Microsoft Germany
Microsoft官宣下周将推出进阶版AI模型GPT-4

根据 Andreas Braun 近日在一项活动上透露,Microsoft 即将推出的 GPT-4 将会提供多模态模型(multimodal models)来创造更多可能性,例如处理视觉上的工作,比如视频。同时 Andreas Braun 强调,相较于目前的 GPT-3.5 版本,GPT-4 将会是一个“Game Changer”游戏改变者。

GPT 4 2

要知道当前基于 GPT-3.5 搭建而成的 AI 即便是只能处理纯文本信息,它的表现也非常的强悍了。如果 GPT-4 的功能再获得进化,除了能处理文本任务之外,它还能处理视觉类型的内容,那么这势必会对更多领域产生深远影响。

Microsoft Kosmos 1 1

这边先给大家一个关于 GPT-4 简单的概念,相信大家如果有留意到,近期 Microsoft 推出堪称比现有 ChatGPT 还要强悍的 AI,Kosmos-1 的全能大型语言模型(Multimodal Large Language Model;MLLM),它比 ChatGPT 纯文本的(Large Language Model;LLM)还要强。

Microsoft Kosmos 1 2
Microsoft Kosmos 1 3

Kosmos-1 可以处理分析图像的内容、解决视觉难题、执行视觉文本识别,以及通过视觉智商测试和理解自然语言指令等等。具体而言,Kosmos-1 可以处理文本、音频、图像和视频等内容。

同时,Kosmos-1 能处理的事物非常多,具体能处理的事物如下:

处理语言任务 Language Task

  • 语言理解
  • 语言生成
  • OCR-free 文本分类

跨模式传输 Cross-modal transfer

  • 常识推理

非语言推理 Nonverbal reasoning

  • 智商IQ 测试

感知语言任务 Perception-language task

  • 图像说明
  • 视觉问答
  • 网页问答

视觉任务 Vision task

  • 零样本图像分类(zero-shot classification, ZSC)
  • 带描述的零样本图像分类(Zero-shot image classification with descriptions, ZSCD)
Source :

About author

啊晖

以前喜欢手机,之后喜欢上折叠机,接着再喜欢上电动车🚗

订阅
通知
guest

0 Comments
内联反馈
查看所有评论
0
希望听到您的想法,请评论x