1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
苹果探索自研多模态 AI 模型 Manzano:兼具理解与生成能力,不弱于 OpenAI GPT-4o 和谷歌 Nano Banana
苹果正研发名为Manzano的多模态AI模型,具备图像理解与生成能力,旨在解决开源模型在综合表现上的不足。据9月27日消息,该模型性能不逊于OpenAI GPT-4o和谷歌Nano Banana。Manzano采用混合图像分词器,通过共享编码器减少任务冲突,并分为混合分词器、统一语言模型和独立解码器三部分,参数规模最高达35.2亿。训练数据包括23亿图像-文本对,总计处理1.6万亿标记。内部测试显示,其在文字密集型任务中表现优异,扩展性良好。尽管如此,苹果基础模型仍落后行业领先者,未来或继续依赖外部模型如GPT-5,但Manzano模块化设计为多模态AI发展提供了潜力。
代码编织者
09-27 21:45:24
Manzano
图像理解与生成
多模态AI
分享至
打开微信扫一扫
内容投诉
生成图片
阿里通义深夜炸场:全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源,文本、图像、音视频全统一
9月23日,阿里云发布并开源全球首个端到端全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频的统一处理。该模型在36项音视频基准测试中,22项达最新水平,支持119种文本语言及多语言语音输入输出,创新采用MoE架构与AuT预训练技术。同时推出Qwen3-TTS文本转语音工具,支持17种音色和10种语言,并优化延迟与音质表现。此外,Qwen-Image-Edit-2509升级版提升图像编辑一致性,新增多图像编辑功能。相关模型已在GitHub、Hugging Face等平台开源。
数码游侠
09-23 10:12:45
Qwen3-Omni
多模态AI模型
开源
分享至
打开微信扫一扫
内容投诉
生成图片
AI 的终点不是对话框,这家公司想让真实世界成为AI 的提示词
标题:AI 的未来不只是对话框,这家公司让真实世界成为AI的提示词 正文: 过去两年,人们对AI的印象大多停留在对话框中:输入问题,获得答案。虽然实用,但显得单调。AI难道只能困在虚拟世界里吗? 最近发布的Looki L1或许给出了新答案。这款设备让我第一次感受到AI可以真正走进生活,理解我...
代码编织者Nexus
08-20 10:12:38
AI硬件
多模态AI
生活记录
分享至
打开微信扫一扫
内容投诉
生成图片
一周六连发!昆仑万维将多模态AI卷到了新高度
8月11日至15日,昆仑万维在技术周上连续发布六款多模态AI模型,覆盖视频生成、世界模型、统一多模态、智能体及AI音乐创作等核心领域,且大部分已开源。其中包括数字人直播带货模型SkyReels-A3、对标谷歌Genie 3的Matrix-Game 2.0、统一多模态框架Skywork UniPic 2.0、智能体引擎Skywork Deep Research Agent v2,以及音乐模型Mureka V7.5和角色语音合成框架MoE-TTS。这些模型在性能和应用场景上均取得突破,刷新多项SOTA纪录。昆仑万维凭借“All in AGI与AIGC”战略,持续加大研发投入,2024年研发费用达15.4亿元,占总营收27%以上,并通过开源推动行业生态发展,入选“中国AI开源16强”。此次技术周标志着其在垂直领域深耕和高频应用场景落地的新起点。
Nebula
08-17 18:38:51
多模态AI
开源模型
昆仑万维
分享至
打开微信扫一扫
内容投诉
生成图片
小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM
正文:8月6日,小红书hi lab正式发布并开源首个多模态AI大模型dots.vlm1。该模型基于DeepSeek V3 LLM构建,配备从零训练的12亿参数视觉编码器NaViT,并支持动态分辨率和多种感知能力优化。通过引入多样化合成数据及图文交错网页数据重写,dots.vlm1在视觉感知与推理方面接近SOTA水平,在MMMU、MathVision等基准测试中表现优异,同时具备一定的文本推理能力。尽管部分细分任务仍有提升空间,其综合性能为开源多模态模型树立了新标杆。项目已开源。
智能维度跳跃
08-06 19:35:57
dots.vlm1
多模态AI模型
小红书
分享至
打开微信扫一扫
内容投诉
生成图片
WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开
2025年7月28日,WAIC现场展出一款备受关注的‘最聪明展台’,展示了多款搭载实时对话功能的AI产品。这些产品依托声网升级版对话式AI引擎,具备选择性注意力锁定、视觉理解及数字人无缝集成能力,可在嘈杂环境中精准识别语音、实时看图识物,并实现情感化交互。例如,AI毛球‘芙崽’和智能家庭陪伴机器人EBO Air 2 Plus均基于该技术支持,展现了强大的多模态交互能力。声网凭借其RTE技术基因,为教育、娱乐等领域提供低延迟、高稳定性的解决方案,推动多模态AI应用普及。此次升级标志着单一模态AI向多模态交互迈进的重要一步。
DreamCoder
07-28 16:16:24
声网
多模态AI交互
对话式AI引擎
分享至
打开微信扫一扫
内容投诉
生成图片
多模态AI黑马刷榜后再造神器:一个产品搞定图片视频播客生成,自带百种特效,大牛梅涛团队出品
多模态AI黑马vivago2.0(智小象AI)由AI大牛梅涛团队打造,功能强大,支持图片、视频、播客生成,自带百种特效模板,用户可轻松创作。其核心亮点包括“唇形同步”功能,让AI配音与人物口型自然匹配,以及Image Agent,通过自然语言即可完成生图和修图任务。vivago2.0还提供300+特效模板,让用户秒变特效大师。该工具结合了开源模型HiDream-I1的能力,具备图像生成、视频生成、AI播客、特效模板等多种玩法。HiDream-I1在文生图领域表现卓越,开源后迅速登顶排行榜,成为国内领先的开源模型之一。智象未来团队由梅涛带领,成员来自全球知名企业,技术实力雄厚。公司自2023年成立以来,已发布多个重要成果,并获得多轮融资,商业化前景广阔。vivago2.0的推出,标志着多模态AI技术的进一步突破,为AIGC领域带来新的可能性。
E-Poet
06-24 22:21:51
vivago2.0
多模态AI
梅涛
分享至
打开微信扫一扫
内容投诉
生成图片
Ollama 上线自研多模态 AI 引擎:逐步摆脱 llama.cpp 框架依赖,本地推理性能飙升
5月17日消息,开源大语言模型服务工具Ollama推出自主研发的多模态AI定制引擎,逐步摆脱对llama.cpp框架的依赖。该引擎针对本地推理性能进行了优化,特别是在处理大图像生成大量token时表现优异。Ollama团队强调,其引擎采用golang独立开发,未直接借鉴llama.cpp的C++实现...
LunarCoder
05-17 15:06:57
Ollama
多模态AI引擎
本地推理
分享至
打开微信扫一扫
内容投诉
生成图片
UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成!
标题:UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成! 复旦大学和美团的研究者提出UniToken,一种创新的统一视觉编码方案,能在单一框架内同时实现图文理解与图像生成任务,并在多个权威评测中表现出色。 UniToken通过融合连续和离散视觉表征,解决了以往方法中“任务干...
QuantumHacker
04-25 15:13:42
图像生成
图文理解
多模态AI
分享至
打开微信扫一扫
内容投诉
生成图片
微软开源多模态AI Agent
《科创板日报》26日,微软在官网开源了多模态AI Agent基础模型Magma。与传统Agent相比,Magma具有跨数字、物理世界的多模态能力,可自动处理图像、视频、文本等多种类型数据。Magma还内置了心理预测功能,增强对视频中人物或物体意图及未来行为的理解。
电子诗篇
02-26 08:27:00
Magma
多模态AI Agent
微软
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序