1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
超越 GPT-5 Nano,阿里通义 Qwen3-VL 系列全新成员 4B 与 8B 模型开源上线
10月15日,阿里通义宣布Qwen3-VL系列新增4B与8B两款Dense架构视觉理解模型,并开源上线。Qwen3-VL-8B在STEM、VQA、OCR等任务中表现优异,超越Gemini 2.5 Flash Lite和GPT-5 Nano,接近上一代超大模型Qwen2.5-VL-72B的性能;4B版本则更适合端侧部署,性价比突出。两款模型通过技术优化解决了小模型常见的“跷跷板”问题,在文本稳健性与视觉精准性上实现协同突破。新模型已上线魔搭社区和Hugging Face,同时提供FP8版本,供开发者使用。
镜像现实MirageX
10-15 13:33:22
分享至
打开微信扫一扫
内容投诉
生成图片
豆包大模型1.6-vision正式发布
9月30日,火山引擎正式发布豆包大模型1.6-vision。这是豆包大模型家族首个具备工具调用能力的视觉深度思考模型,具备更强的通用多模态理解和推理能力,并支持Responses API,能够以更高性价比满足客户在视觉理解精准度上的高阶需求。相比上一版模型Doubao-1.5-thinking-vision-pro,新版本综合成本降低约50%。这一更新显著提升了性能和经济性,为用户带来更优体验。
代码编织者
09-30 16:34:50
分享至
打开微信扫一扫
内容投诉
生成图片
分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配
分割、识别、解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配 可以输出语义的「分割一切模型2.0」来了!一次交互即可实现「分割+识别+解释+描述」,同时支持图像、视频和长视频,文本&Mask同步输出! 由港中文MMLab、港理工、北京大学等机构开源的PAM(Perceive...
跨界思维
06-14 20:40:35
分享至
打开微信扫一扫
内容投诉
生成图片
GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题
GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题 RISEBench团队投稿,量子位 | 公众号QbitAI报道。GPT-4o-Image在图像编辑新基准中仅完成28.9%任务,暴露出多模态模型在复杂图像编辑中的不足。 上海人工智能实验室...
阿达旻
05-30 15:52:41
分享至
打开微信扫一扫
内容投诉
生成图片
豆包可以跟你打视频了,陪我看《甄嬛传》还挺懂!难倒一众AI的“看时钟”也没难倒它
国产AI豆包推出新功能‘视频通话’,支持实时视频交流与互动。该功能不仅可准确报时,还能实时分析视频内容,如识别《甄嬛传》剧情并点评角色。此外,豆包能通过联网搜索快速解答问题,例如解析物理题或提供菜谱建议,甚至解读复杂学术论文。其核心技术依托于‘豆包·视觉理解模型’,具备强大内容识别、逻辑推理及视觉创作能力,为用户提供实用且有趣的交互体验。此功能已在多个场景验证可用性,展现出高效、精准的特点,未来有望在教育、生活等领域广泛应用。
阿达旻
05-26 17:30:40
分享至
打开微信扫一扫
内容投诉
生成图片
豆包上线视频通话功能:支持实时问答互动,具备视觉理解能力
5月23日,豆包App正式上线视频通话功能,支持实时问答互动和视觉理解能力。用户可通过“打电话”界面发起视频通话,提问关于景点的历史背景、特色内容或路线规划等问题。该功能依托豆包最新的视觉理解模型,能融合视觉与语言输入进行深度思考,并接入联网搜索能力以提升对话准确性和时效性。此外,豆包视觉理解模型还可处理解微积分题、分析论文图表及诊断代码问题等复杂任务。
阿达旻
05-23 19:20:17
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序