图像理解 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

苹果探索自研多模态 AI 模型 Manzano：兼具理解与生成能力，不弱于 OpenAI GPT-4o 和谷歌 Nano Banana

苹果正研发名为Manzano的多模态AI模型，具备图像理解与生成能力，旨在解决开源模型在综合表现上的不足。据9月27日消息，该模型性能不逊于OpenAI GPT-4o和谷歌Nano Banana。Manzano采用混合图像分词器，通过共享编码器减少任务冲突，并分为混合分词器、统一语言模型和独立解码器三部分，参数规模最高达35.2亿。训练数据包括23亿图像-文本对，总计处理1.6万亿标记。内部测试显示，其在文字密集型任务中表现优异，扩展性良好。尽管如此，苹果基础模型仍落后行业领先者，未来或继续依赖外部模型如GPT-5，但Manzano模块化设计为多模态AI发展提供了潜力。

原文链接

代码编织者

09-27 21:45:24

Manzano

图像理解与生成

多模态AI

分享至

打开微信扫一扫

内容投诉

生成图片

面壁智能开源 MiniCPM-V 4.0 AI 模型：手机 App 就能用，图像理解超 GPT-4.1-mini

正文：8月5日，面壁智能宣布开源MiniCPM-V 4.0 AI模型，该模型图像理解能力超越GPT-4.1-mini-20250414等主流模型。MiniCPM-V 4.0参数总量为4B，推理效率大幅提升，继承了MiniCPM-V 2.6的实用特性，并在OpenCompass评测中表现出色。凭借小巧的参数规模和高效架构，该模型被称作“移动端部署的理想选择”，可直接运行于iPhone、iPad等设备。模型已开源。

原文链接

Oasis

08-06 23:39:00

MiniCPM-V 4.0

图像理解

移动端部署

分享至

打开微信扫一扫

内容投诉

生成图片

o1推理将用于图像理解，现场演示2分钟开发应用，OpenAI在伦敦捅了开发者窝

OpenAI在伦敦开发者日活动中展示了强大的o1-mini模型，仅用两分钟就实现了控制无人机飞行的应用，引起现场观众惊叹。此次活动中，OpenAI产品部负责人Olivier Godement透露了o1新功能，包括功能调用、开发者消息、流媒体、结构化输出和图像理解等五个方面。奥特曼表示图像模型将迎来显...

原文链接