1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配
分割、识别、解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配 可以输出语义的「分割一切模型2.0」来了!一次交互即可实现「分割+识别+解释+描述」,同时支持图像、视频和长视频,文本&Mask同步输出! 由港中文MMLab、港理工、北京大学等机构开源的PAM(Perceive...
跨界思维
06-14 20:40:35
SOTA
分割一切模型
视觉理解
分享至
打开微信扫一扫
内容投诉
生成图片
GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题
GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题 RISEBench团队投稿,量子位 | 公众号QbitAI报道。GPT-4o-Image在图像编辑新基准中仅完成28.9%任务,暴露出多模态模型在复杂图像编辑中的不足。 上海人工智能实验室...
阿达旻
05-30 15:52:41
RISEBench
图像编辑
视觉理解
分享至
打开微信扫一扫
内容投诉
生成图片
豆包可以跟你打视频了,陪我看《甄嬛传》还挺懂!难倒一众AI的“看时钟”也没难倒它
国产AI豆包推出新功能‘视频通话’,支持实时视频交流与互动。该功能不仅可准确报时,还能实时分析视频内容,如识别《甄嬛传》剧情并点评角色。此外,豆包能通过联网搜索快速解答问题,例如解析物理题或提供菜谱建议,甚至解读复杂学术论文。其核心技术依托于‘豆包·视觉理解模型’,具备强大内容识别、逻辑推理及视觉创作能力,为用户提供实用且有趣的交互体验。此功能已在多个场景验证可用性,展现出高效、精准的特点,未来有望在教育、生活等领域广泛应用。
阿达旻
05-26 17:30:40
ai
视觉理解
视频通话
分享至
打开微信扫一扫
内容投诉
生成图片
豆包上线视频通话功能:支持实时问答互动,具备视觉理解能力
5月23日,豆包App正式上线视频通话功能,支持实时问答互动和视觉理解能力。用户可通过“打电话”界面发起视频通话,提问关于景点的历史背景、特色内容或路线规划等问题。该功能依托豆包最新的视觉理解模型,能融合视觉与语言输入进行深度思考,并接入联网搜索能力以提升对话准确性和时效性。此外,豆包视觉理解模型还可处理解微积分题、分析论文图表及诊断代码问题等复杂任务。
阿达旻
05-23 19:20:17
视觉理解
视频通话
豆包
分享至
打开微信扫一扫
内容投诉
生成图片
杭州领跑AI开源!阿里Qwen除夕开源视觉理解新旗舰,全系列3尺寸,7B模型超GPT-4o-mini
杭州领跑AI开源!阿里Qwen除夕开源视觉理解新旗舰,全系列3尺寸,7B模型超GPT-4o-mini 衡宇 白交 发自 川渝 量子位 | 公众号 QbitAI 眼看蛇年将至,杭州依旧充满活力。阿里通义Qwen今日凌晨4点发布了视觉理解模型Qwen2.5-VL,包含3B、7B和72B三个版本。Qwen...
量子思考者
01-28 10:42:11
GPT-4o-mini
Qwen2.5-VL
视觉理解模型
分享至
打开微信扫一扫
内容投诉
生成图片
阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源:三尺寸版本、支持理解长视频和捕捉事件等能力
阿里通义千问于1月28日宣布开源全新视觉理解模型Qwen2.5-VL,推出3B、7B和72B三个尺寸版本。该模型能识别物体、分析图像文本、理解长视频及捕捉事件。Qwen2.5-VL具备代理能力,可推理并使用工具,无需特定任务微调。在测试中,旗舰模型Qwen2.5-VL-72B-Instruct表现优异,涵盖多领域任务。较小模型Qwen2.5-VL-7B-Instruct在多项任务中超越GPT-4o-mini,Qwen2.5-VL-3B亦有出色表现。新模型增强对时空尺度感知,简化网络结构,提升效率。
星际Code流浪者
01-28 08:41:31
Qwen2.5-VL
视觉理解模型
长视频
分享至
打开微信扫一扫
内容投诉
生成图片
大模型降价潮再起
阿里云宣布第三轮大模型降价,通义千问视觉理解模型降价超80%,输入价格低至0.0015元/千tokens。此次降价被视为对字节跳动豆包视觉理解模型的回应,后者千tokens价格为3厘。自大模型浪潮兴起,厂商投入巨大,降价潮对资金实力较弱的企业冲击较大。此外,大模型企业通过巨额广告投放抢夺市场,如Kimi和豆包在三季度广告费用分别达1.5亿和2亿。尽管如此,提升用户留存仍是关键。互联网大厂如阿里和百度正寻求C端突围,阿里将通义App分拆并入智能信息事业群,百度则加强AI搜索布局。
神经网络领航员
01-02 09:10:25
大模型降价潮
视觉理解模型
阿里云
分享至
打开微信扫一扫
内容投诉
生成图片
豆包视觉理解模型惊艳亮相:首次评测就排名全球第二
12月18日-19日,火山引擎FORCE原动力大会在上海举行,豆包视觉理解模型首次亮相并排名全球第二。该模型具备领先的内容识别、理解和推理能力,尤其在中文通用知识和文字识别方面表现突出。豆包视觉理解模型可识别图像中的物体、关系和场景,进行复杂推理,提取图片文本信息,并能细腻描述图像内容。此次大会还展示了豆包大模型家族的全面升级,包括音乐模型和文生图模型的新功能,以及豆包3D生成模型的首次亮相。
智慧棱镜
12-23 15:58:35
大模型
火山引擎
豆包视觉理解模型
分享至
打开微信扫一扫
内容投诉
生成图片
火山引擎发布豆包视觉理解模型!龙头拿下连续两个20CM涨停,字节跳动旗下两大引擎A股合作商名单一览
火山引擎在12月18日的“2024火山引擎FORCE原动力大会·冬”上发布了豆包视觉理解模型,并升级了火山方舟、扣子和HiAgent三款平台产品。豆包大模型日均tokens使用量超4万亿,7个月内增长超33倍。全资子公司光云科技因获得“钻石级万有伙伴”称号,股价连续两日涨停。字节跳动旗下火山引擎和巨量引擎分别与多家A股上市公司合作,包括华宇软件、中科创达、乐鑫科技、光云科技等。巨量引擎整合多个平台流量资源,为广告主提供精准投放服务。
数字墨迹
12-22 16:27:17
巨量引擎
火山引擎
豆包视觉理解模型
分享至
打开微信扫一扫
内容投诉
生成图片
视觉理解模型定价低于同行85% 火山引擎谭待回应:仍然能有合理的毛利
12月20日,针对字节豆包视觉理解模型定价低于同行85%,火山引擎总裁谭待回应称,3厘/千tokens的价格仍能保持合理毛利。他认为,2B业务若毛利为负,规模越大亏损越多,商业模式不可行。字节通过技术优化(如算法预训练、工程错峰混部、P/D推理分离、硬件优化)实现低价。谭待强调,技术领先才能提供优质服务。(财联社)
超频思维站
12-20 11:28:56
定价
毛利
视觉理解模型
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序