首页 > 生活分享 > 免费教学 > 微软Phi-3-vision基准测试,和Gemini 1.0 Pro相当

微软Phi-3-vision基准测试,和Gemini 1.0 Pro相当

发布时间:2024-05-28 22:43:12

之家 5 月 28 日消息,微软在 Build 2024 大会上发布了 Phi-3 家族的最新成员--Phi-3-vision,主打“视觉能力”,能够理解图文内容,同时据称可以在移动平台上流畅高效运行。

Phi-3-vision 是一款多模态小型语言模型(SLM),主要用于本地 AI 场景,该模型参数量为 42 亿,上下文长度为 128k token,能够为常规视觉推理任务和其他任务提供支持。

那么 Phi-3-vision 有多厉害?微软今天发布了新的论文 [PDF],表示该 SLM 和 Claude 3-haiku、Gemini 1.0 Pro 等其他模型不相上下。

微软在论文中对比了 ScienceQA、MathVista 和 ChartQA 等模型,Phi-3-vision 的参数虽然不多,但性能非常优秀。

IT之家此前报道,微软提供了 Phi-3-vision 相较于字节跳动 Llama3-Llava-Next(8B)、微软研究院和威斯康星大学、哥伦比亚大学合作的 LlaVA-1.6(7B)、阿里巴巴通义千问 QWEN-VL-Chat 模型等竞品模型的比较图表,其中显示 Phi-3-vision 模型在多个项目上表现优异。

目前微软已经将该模型上传至 Hugging Face,感兴趣的小伙伴们可以访问项目地址:点此进入。

 

免费教学更多>>

安道拓发布模块化座椅解决方案ModuTec 停产多年后启动大规模招聘,“山寨车鼻祖”众泰汽车艰难求生 中国品牌二手车销量跃升南非市场前列,Tiggo 4 Pro成最畅销车型 未来院孵化企业完成数亿元Pre-A轮融资 不敢在印度建厂造车,真是因为带不回利润? 行业首个!128TOPS单芯片跑通城市NOA,轻舟智航联手理想汽车,首发量产上车 吉利集团发布2030战略,剑指650万辆! 央企新能源转型生死局, Meta今年拟实现AI眼镜年产能翻番 剑指2000万副 抵挡敌意收购,Netflix考虑修改条款全现金收购华纳兄弟 美国科罗拉多州警车引入自动车辆识别系统 号称每小时可开出12张超速罚单 苹果为何选择与谷歌AI合作?郭明錤:迫于短期挑战、压力 苹果和谷歌谈成一笔大生意,马斯克发文:强烈不满! 本田启用新Logo,明年将率先搭载于新款纯电车和混动车 日本车企在中国销量连跌7年,该怎么稳定汽车市场呢 王自如回应不看格力工资条 还有下半句:基层员工一定要看 美系巨头们的“去中国化”豪掷,能赢吗? 8.88万元起售/智能AI加码,上汽大众朗逸 Pro上市 限时焕新价12.49万起 2026款捷途旅行者上市 小鹏汽车Q3毛利率首破20%,Q4交付目标上调至12.5万辆 已签约!安波福新项目落地武汉 Flyme Auto合作车型10月销量超19.5万辆,同比增长200% 3M动力电池解决方案——助力推动电动出行的未来 为Linux开发者而来!同星智能发布多款SocketCAN工具 三星有望重启 Galaxy A7x 系列,新机 Galaxy A77 在 Geekbench 跑分平台现身 优酷、B站,被一个后来者超车了 毫无预兆的,Gartner给大模型开发平台排了座次 USB接口的颜色可以说是快速识别性能的“视觉语言”,但并不是标准和推荐的方法 18个月月收33万刀!起底“AI套壳”生意经:是昙花一现还是隐形金矿? 你的快递,是无人车送的,物流公司为了降低亏损、补充人力