1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
超越Gemini3、GPT5.1,阿里千问登顶空间推理全球冠军
正文:11月26日,阿里千问的视觉理解模型Qwen3-VL和Qwen2.5-VL在空间推理基准测试SpatialBench榜单中位列前两名,超越Gemini 3、GPT-5.1等国际顶尖模型。SpatialBench是一项衡量多模态模型在空间、结构、路径等方面综合推理能力的新兴标准,对具身智能落地至关重要。Qwen3-VL和Qwen2.5-VL分别获得13.5分和12.9分,远超Gemini 3.0 Pro Preview(9.6分)和GPT-5.1(7.5分)。尽管AI整体表现仍不及人类基准线(约80分),但Qwen3-VL在视觉感知和多模态推理方面取得突破,可实现‘带图推理’和‘视觉编程’,并增强3D检测能力,助力机器人精准抓取物体。Qwen3-VL已开源多个版本,并上线千问APP供用户免费体验。
灵感Phoenix
11-26 15:49:46
分享至
打开微信扫一扫
内容投诉
生成图片
阿里开源视觉理解模型Qwen3-VL
2025年9月24日,在云栖大会上,阿里巴巴宣布开源新一代视觉理解模型Qwen3-VL。这一模型的发布标志着阿里在人工智能领域的进一步开放与创新,为开发者提供了强大的技术支持。Qwen3-VL具备先进的视觉理解能力,可广泛应用于图像识别、场景分析等领域。
WisdomTrail
09-24 14:43:41
分享至
打开微信扫一扫
内容投诉
生成图片
百度开源视觉理解模型Qianfan-VL!全尺寸领域增强+全自研芯片计算
2025年9月,百度智能云千帆正式推出并开源全新视觉理解模型Qianfan-VL,包含3B、8B和70B三个版本,针对企业级多模态应用场景优化。该模型基于百度自研昆仑芯P800完成计算任务,支持单任务5000卡规模并行计算,性能达到SOTA水平。Qianfan-VL具备OCR全场景识别、复杂文档解析及数学解题等能力,在通用和垂直领域测试中表现优异。8B和70B模型还支持通过特殊token激活思维链能力,适用于复杂推理场景。即日起至10月10日,用户可免费体验8B和70B模型,更多详情可通过百度智能云千帆平台或GitHub获取。
神经网络领航员
09-23 02:05:39
分享至
打开微信扫一扫
内容投诉
生成图片
百度智能云开源视觉理解模型 Qianfan-VL,基于自研昆仑芯 P800 芯片计算
9月22日,百度智能云千帆推出视觉理解模型Qianfan-VL并全面开源。该模型提供3B、8B和70B三种规格,针对企业级多模态场景深度优化,特别强化OCR、教育垂直场景等高频需求。基于自研昆仑芯P800完成计算,支持5000卡规模并行计算,在通用、OCR、数学解题等领域表现优异。即日起至10月10日,企业和开发者可免费体验8B、70B模型。Qianfan-VL具备多尺寸适配、思考推理能力及文档理解增强等特点,适用于复杂图表分析、文档智能化等场景。百度智能云表示将持续推动AI技术在各行业的落地应用。
元界筑梦师
09-22 22:02:49
分享至
打开微信扫一扫
内容投诉
生成图片
杭州领跑AI开源!阿里Qwen除夕开源视觉理解新旗舰,全系列3尺寸,7B模型超GPT-4o-mini
杭州领跑AI开源!阿里Qwen除夕开源视觉理解新旗舰,全系列3尺寸,7B模型超GPT-4o-mini 衡宇 白交 发自 川渝 量子位 | 公众号 QbitAI 眼看蛇年将至,杭州依旧充满活力。阿里通义Qwen今日凌晨4点发布了视觉理解模型Qwen2.5-VL,包含3B、7B和72B三个版本。Qwen...
量子思考者
01-28 10:42:11
分享至
打开微信扫一扫
内容投诉
生成图片
阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源:三尺寸版本、支持理解长视频和捕捉事件等能力
阿里通义千问于1月28日宣布开源全新视觉理解模型Qwen2.5-VL,推出3B、7B和72B三个尺寸版本。该模型能识别物体、分析图像文本、理解长视频及捕捉事件。Qwen2.5-VL具备代理能力,可推理并使用工具,无需特定任务微调。在测试中,旗舰模型Qwen2.5-VL-72B-Instruct表现优异,涵盖多领域任务。较小模型Qwen2.5-VL-7B-Instruct在多项任务中超越GPT-4o-mini,Qwen2.5-VL-3B亦有出色表现。新模型增强对时空尺度感知,简化网络结构,提升效率。
星际Code流浪者
01-28 08:41:31
分享至
打开微信扫一扫
内容投诉
生成图片
大模型降价潮再起
阿里云宣布第三轮大模型降价,通义千问视觉理解模型降价超80%,输入价格低至0.0015元/千tokens。此次降价被视为对字节跳动豆包视觉理解模型的回应,后者千tokens价格为3厘。自大模型浪潮兴起,厂商投入巨大,降价潮对资金实力较弱的企业冲击较大。此外,大模型企业通过巨额广告投放抢夺市场,如Kimi和豆包在三季度广告费用分别达1.5亿和2亿。尽管如此,提升用户留存仍是关键。互联网大厂如阿里和百度正寻求C端突围,阿里将通义App分拆并入智能信息事业群,百度则加强AI搜索布局。
神经网络领航员
01-02 09:10:25
分享至
打开微信扫一扫
内容投诉
生成图片
视觉理解模型定价低于同行85% 火山引擎谭待回应:仍然能有合理的毛利
12月20日,针对字节豆包视觉理解模型定价低于同行85%,火山引擎总裁谭待回应称,3厘/千tokens的价格仍能保持合理毛利。他认为,2B业务若毛利为负,规模越大亏损越多,商业模式不可行。字节通过技术优化(如算法预训练、工程错峰混部、P/D推理分离、硬件优化)实现低价。谭待强调,技术领先才能提供优质服务。(财联社)
超频思维站
12-20 11:28:56
分享至
打开微信扫一扫
内容投诉
生成图片
杀疯了!字节豆包视觉理解模型价格下降85%,火山引擎谭待:现在不太关注市场竞争
字节跳动的豆包大模型及相关产品持续引发行业关注。在火山引擎Force大会上,字节跳动发布了豆包视觉理解模型、豆包3D生成模型及全面更新的豆包通用模型pro、音乐模型、文生图模型等,为企业提供多模态大模型能力。豆包视觉理解模型的价格仅为0.003元/千tokens,比行业价格便宜85%。 火山引擎总裁...
电子诗篇
12-18 17:35:19
分享至
打开微信扫一扫
内容投诉
生成图片
继续狂飙!豆包“全家桶”迎来重磅更新 视觉理解、视频生成功能都来了
字节跳动豆包大模型日均tokens使用量超过4万亿,发布7个月增长超33倍。在火山引擎Force原动力大会上,豆包发布视觉理解模型,价格降至0.003元/千Tokens,比行业平均价低85%。新一代视频生成大模型将于明年1月发布。豆包视觉理解模型填补了“豆包全家桶”在视觉交互上的短板。西部证券指出,视觉能力是大模型的核心,将增加对NAND存储芯片需求。国盛证券认为,字节跳动有望成为AI眼镜产品核心玩家。随着视频大模型的推出,字节跳动的算力需求将进一步增大,可能需要更多英伟达H100 GPU。
新智燎原
12-18 13:31:32
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序