1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
3D打印火出圈了?一众网友秀“成果” 幕后推手竟是这款AI模型
2025年9月1日,朋友圈和社交平台被大量“3D打印手办”图片刷屏,这些图片实际由谷歌推出的AI模型Nano-banana生成。该模型自8月26日上线后,凭借图像生成与编辑能力迅速出圈,在海外AI排行平台LMArena中以1362分位列第一。Nano-banana可将人物或动物图片转化为“手办”样式,并支持多图融合、风格迁移等功能,展现跨图一致性与常识推理能力。目前,Adobe等多家海外平台已集成该模型,华福证券认为其代表多模态模型的重大突破。同日,A股3D打印概念股震荡拉升,海正生材等多股涨停。机构指出,多模态模型商业化潜力巨大,算力与应用领域将迎来投资机遇。
幻彩逻辑RainbowLogic
09-01 13:19:49
3D打印
nano-banana
多模态模型
分享至
打开微信扫一扫
内容投诉
生成图片
行业首个:8B 参数面壁小钢炮 MiniCPM-V 4.5 开源,号称“最强端侧多模态模型”
8月26日,面壁智能宣布开源8B参数的MiniCPM-V 4.5多模态模型,称其为“最强端侧多模态模型”。该模型在视频理解、图片识别、复杂文档解析等任务中表现卓越,尤其具备行业首个高刷视频理解能力,支持每秒处理更多帧数,大幅超越Qwen2.5-VL 72B等模型。MiniCPM-V 4.5通过3D-Resampler技术实现96倍视觉压缩率,显著提升动态画面理解精度。此外,其在MotionBench、OpenCompass等多项榜单中达到同级SOTA水平,并兼顾性能与响应速度,提供常规模式和深度思考模式。模型已开源,可通过Github、Hugging Face及ModelScope获取。
智慧棱镜
08-28 10:15:37
MiniCPM-V 4.5
多模态模型
高刷视频理解
分享至
打开微信扫一扫
内容投诉
生成图片
多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快
2025年8月27日,面壁智能正式开源8B参数的MiniCPM-V 4.5多模态旗舰模型。该模型是行业首个具备“高刷”视频理解能力的多模态模型,在性能与效率上实现越级领先,超越Qwen2.5-VL 72B模型。MiniCPM-V 4.5最大支持6倍视频帧数量输入,达到96倍视觉压缩率,显著提升动态画面理解精度。在图片、长视频、OCR及文档解析等任务中均达SOTA水平,并支持短思考与长思考混合推理模式,适用于端侧设备。模型已开源,可通过GitHub、Hugging Face和ModelScope获取。
电子诗篇
08-27 12:03:30
多模态模型
端侧推理
高刷视频理解
分享至
打开微信扫一扫
内容投诉
生成图片
阿里AI TO C业务启动近千人招聘,加速多模态模型和前沿AI应用布局
2025年8月,阿里巴巴启动智能信息事业群大规模AI人才招聘计划,社招与校招总规模近千人,聚焦大语言模型、多模态技术及AI硬件等前沿领域。工作地点覆盖北京、上海、杭州、广州等城市。此次招聘反映阿里加速布局AI TO C应用的决心,重点优化AI搜索、健康、创作等场景化落地。夸克AI眼镜亮相世界人工智能大会,并新增相关硬件研发岗位。阿里巴巴2026届校招将发出7000多个Offer,AI相关岗位占比超六成,涵盖算法融合、医疗AI等项目,吸引年轻高端人才参与前沿技术研发。
心智奇点
08-13 16:37:08
前沿AI应用
多模态模型
阿里AI
分享至
打开微信扫一扫
内容投诉
生成图片
41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码
2025年8月12日,智谱开源发布了GLM-4.5V多模态视觉推理模型,参数规模达100B,在42项基准测试中拿下41个SOTA,登顶多模态榜单。该模型具备看图猜地址、视频转代码、复杂图表推理等强大功能,例如在GeoGuessr游戏中全球排名66,能精准识别《清明上河图》中的细节,并将视频一键还原为网站代码。API价格低至2元/百万token,官方赠送2000万免费额度。GLM-4.5V基于GLM-4.5基座,采用三阶段训练策略,支持图像、视频、文档理解等多场景应用,展现了强大的泛化与推理能力,成为AI多模态领域的新标杆。
AI奇点纪元
08-12 16:19:29
GLM-4.5V
多模态模型
视觉推理
分享至
打开微信扫一扫
内容投诉
生成图片
具身智能实力派!十年多模态打底,世界模型开路,商汤悟能来了
2025年WAIC大模型论坛上,商汤科技发布「悟能」具身智能平台,正式进军具身智能领域。该平台依托日日新V6.5多模态推理大模型,具备图文交错思维链技术,跨模态推理精度显著提升,同时成本大幅降低。商汤基于十年多模态技术积累和自动驾驶经验,结合「开悟」世界模型,构建了涵盖感知、决策与行动的多层次架构,支持机器人、自动驾驶等场景应用。通过虚拟仿真与真实数据回流闭环,商汤破解了数据稀缺难题,并融合第一与第三视角训练,提升模型泛化能力。商汤正通过软硬协同策略,推动千万级机器人落地,加速具身智能发展。
Nebula
07-28 10:08:25
世界模型
具身智能
多模态模型
分享至
打开微信扫一扫
内容投诉
生成图片
独家丨前阿里通义视觉负责人薄列峰,已加入腾讯混元团队
2025年7月,前阿里通义视觉负责人薄列峰加入腾讯混元团队,直接向副总裁蒋杰汇报。薄列峰曾于4月30日从阿里离职,此前主导多项生成式AI技术,如Animate Anyone、Outfit Anyone等,并在行业具备广泛影响力。他曾在亚马逊推动Amazon Go算法开发,后历任京东数科AI实验室首席科学家和阿里通义实验室应用视觉负责人。此外,腾讯混元近期吸纳多名顶尖人才,包括微软WizardLM核心成员徐灿、孙清峰、郑开等人,分别于2024年底至2025年上半年陆续加盟。混元逐步从‘追赶者’转向技术积累阶段,未来将聚焦技术能力在用户产品中的实际落地。
智慧轨迹
07-27 19:02:28
多模态模型
腾讯混元
薄列峰
分享至
打开微信扫一扫
内容投诉
生成图片
多模态都是假的:最强模型数不清手指、认不出雷碧
标题:多模态的局限:AI数不清六根手指,也认不出“雷碧” 最近因为一个图像AI项目,我深入研究了视觉AI的表现,并发现了一个有趣的现象:即使是顶级AI模型,也会在简单任务上出错,比如数不清六根手指或分辨不出“雷碧”和雪碧。 多模态的真相 所谓的多模态模型,其实并不像我们想象中那样能“看见”。...
QuantumHacker
07-22 15:38:55
多模态模型
数据偏差
视觉识别
分享至
打开微信扫一扫
内容投诉
生成图片
vivo发布端侧多模态模型,只有3B可理解GUI界面,20项评测表现亮眼
vivo发布端侧多模态模型,仅3B参数实现GUI理解,20项评测表现优异 vivo AI Lab推出了面向端侧设计的多模态模型BlueLM-2.5-3B,具备紧凑高效的特点,并能直接理解GUI界面。该模型融合了文本与图文理解能力,支持长短思考模式切换和思考预算控制机制(thinking token ...
梦境编程师
07-10 17:25:30
BlueLM-2.5-3B
多模态模型
端侧
分享至
打开微信扫一扫
内容投诉
生成图片
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略 字节跳动与南洋理工大学(NTU)联合推出MMSearch-R1项目,通过强化学习训练多模态模型自主执行智能搜索。该研究首次尝试基于端到端强化学习的多模态模型训练,使模型能够判断何时搜索、搜索什么以及如何处...
数据炼金师
07-09 14:06:26
多模态模型
强化学习
按需搜索
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序