Apple推出新AI模型FastVLM:秒识别手机画面里的内容,比Visual Intelligent快多了!

阿六
apple ai model fastvlm

就在刚刚,Apple释出了一组名为FastVLM的AI语言大模型,这很有可能是iPhone Visual Intelligent功能的完全体?

Apple推出新AI模型FastVLM:秒识别手机画面里的内容,比Visual Intelligent快多了!
Apple推出新AI模型FastVLM:秒识别手机画面里的内容,比Visual Intelligent快多了!

简单来说,FastVLM就是个图像识别模型,目前Apple已经在Github上释出了示范用的建议App,从上述的图像可以感受到这个AI模型就可以精准的识别并描述画面里的内容,像是画面上的emoji,或是纸张上写的文字。

Apple推出新AI模型FastVLM:秒识别手机画面里的内容,比Visual Intelligent快多了!

你还能制定不同的指令类型,比方说完整描述画面内容的,或是纯读出笔记本上写的文字内容或是手指的数量,而不是每次都需要AI来给你完整描述整个画面里出现的每个内容。

Apple推出新AI模型FastVLM:秒识别手机画面里的内容,比Visual Intelligent快多了!

当然,FastVLM最关键的地方还是快,非常的快,几乎是瞬间进行识别和内容输出,而且这样的AI模型还是在本地运行的。对比起现有iPhone上需要联网请求GPT然后呈现识别内容来看,这个Apple自研的语言模型明显来得有效率许多。

Apple声称,他们最小的FastVLM模型也能比LLaVA-OneVision-0.5B快上85倍、稍大一些的模型也能和Cambrian-1-8B模型有着不相上下的表现等。

Apple推出新AI模型FastVLM:秒识别手机画面里的内容,比Visual Intelligent快多了!

这里就有用户尝试使用了这个范例App,根据他的说法,他利用iPhone 16 Pro,可以感受到实际效果如预期版十分快速,但在使用约5亿笔参数的模型时,手机在几分钟后就会略微发热,看来功耗的管控也是这个应用的一个需要解决的面向。

总的来看,这个功能有望为Visual Intelligent功能带来更好的体验提升,不光是减少对Chat GPT的依赖、端侧的运作也能更好的保护隐私,重要的是类似的运用场景或许能更加发散,比方说调用手机摄像头来随时识别场景、在使用各大App时协助系统进行画面识别等等,这个AI模型显然是个更好的选择。

Source :
Leave a Comment
订阅
通知
guest

0 Comments
内联反馈
查看所有评论
0
希望听到您的想法,请评论x