1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
谢赛宁团队新作打破“多语言诅咒”!MetaCLIP 2支持300多种语言,英语性能反倒提升了
谢赛宁团队发布MetaCLIP 2模型,支持300多种语言,打破“多语言诅咒”,并提升英语性能。该模型通过扩展元数据、优化筛选算法和调整训练策略,解决了非英语数据处理难题,并在多项任务中创下新SOTA。实验显示,其在ImageNet分类准确率达81.3%,超越纯英语CLIP的80.5%;在多语言图像分类和跨语言检索任务中表现突出。此外,模型嵌入质量更优,在文化多样性任务中表现显著提升。相关论文与代码已开源。
电子诗篇
08-01 08:57:44
MetaCLIP 2
NoFilter
多语言诅咒
分享至
打开微信扫一扫
内容投诉
生成图片
Kimi K2官方技术报告出炉:采用384个专家,训练不靠刷题靠“用自己的话再讲一遍”
2025年7月,Kimi K2官方技术报告发布,揭示其训练秘籍。该模型采用384个专家、总参数达1万亿,激活参数32B,擅长代码、Agent及数学推理任务,并在上线一周内击败DeepSeek,登顶全球最强开源模型。其核心技术包括MuonClip优化器、大规模Agentic Tool Use数据合成及通用强化学习框架,强调‘用自己的话再讲一遍’的训练方式提升效率。此外,阿里通义Qwen3-235B-A22B-2507版本更新,官方称性能超越Kimi K2,或成新王者。
新智燎原
07-22 15:34:45
Agentic Tool Use数据合成
Kimi K2
MuonClip优化器
分享至
打开微信扫一扫
内容投诉
生成图片
上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题
6月4日消息,上海人工智能实验室联合清华大学、伊利诺伊大学香槟分校等国际团队,成功研发新方法解决强化学习中的策略熵崩溃问题。研究提出Clip-Cov和KL-Cov技术,通过裁剪高协方差token和施加KL惩罚维持熵水平。实验基于Qwen2.5模型和DAPOMATH数据集,在数学任务中,32B模型在AIME25测试中性能提升15.0%。该方法已在Qwen2.5、Mistral、LLaMA等多个开源模型上验证,参数规模覆盖0.5B至32B,涵盖数学和编程任务的8个公开基准测试。这项突破不仅解决熵崩溃难题,还为强化学习在语言模型中的应用提供理论支持,未来需进一步探索熵管理策略。
AI创意引擎
06-04 08:15:30
Clip-Cov
强化学习
策略熵崩溃
分享至
打开微信扫一扫
内容投诉
生成图片
告别“图文不符”!FG-CLIP实现细粒度跨模态对齐,360开源模型重塑AI视觉理解
标题:FG-CLIP实现细粒度跨模态对齐,重塑AI视觉理解 360人工智能研究院发布的FG-CLIP模型解决了传统CLIP的“视觉近视”问题,通过“长文本深度理解”和“细粒度视觉比对”双突破,精准识别局部细节。实验显示,FG-CLIP在细粒度理解、开放词汇检测、图文检索等任务中均优于其他模型。 ...
心智奇点
04-28 16:55:49
FG-CLIP
细粒度理解
跨模态对齐
分享至
打开微信扫一扫
内容投诉
生成图片
微软 Copilot 新技能:背靠 500 万 Clipchamp 素材库,秒速生成 AI 视频
2月21日,微软发布Visual Creator工具,集成Microsoft Clipchamp,可在几秒内生成AI视频。该工具面向拥有Copilot许可证的商业用户,建议企业各团队利用其制作培训及演示视频。用户只需输入提示词,Copilot自动生成脚本并从Clipchamp素材库中挑选素材,添加音乐和特效后生成视频。该工具使用现有素材,Clipchamp库中有500万张图片可供选择。目前,Visual Creator不生成新画面。
神经网络领航员
02-22 16:39:05
Clipchamp
Copilot
Visual Creator
分享至
打开微信扫一扫
内容投诉
生成图片
一张图实现街道级定位,端到端图像地理定位大模型AddressCLIP登ECCV2024
一张图实现街道级定位的大模型AddressCLIP入选ECCV2024 AddressCLIP项目组由中科院自动化所和阿里云共同研发,推出了一款端到端图像地理定位大模型,仅需一张照片即可实现街道级精度的定位。此模型名为AddressCLIP,基于CLIP架构,论文《Empowering Vision...
虚拟织梦者
09-15 22:45:54
AddressCLIP
ECCV2024
图像地理定位
分享至
打开微信扫一扫
内容投诉
生成图片
CLIP当RNN用入选CVPR:无需训练即可分割无数概念|牛津大学&谷歌研究院
牛津大学和谷歌研究院合作的创新项目"CLIP as RNN (CaR)"在CVPR 2024会议上亮相。CaR是一个无需额外训练的技术,能够直接分割多种概念,如电影角色、地标和品牌,即使面对开放词汇。它利用循环神经网络结构,通过CLIP模型的循环调用来生成和筛选掩码,逐步提高分割精度。 关键优势包括: 1. 不依赖额外训练数据,无需掩码注解或大量图像-文本数据。 2. 保持开放词汇能力,不受限于预训练VLM的微调。 3. 能处理文本查询中图像内不存在的概念,通过迭代优化提升分割质量。 CaR的设计灵感来源于RNN的隐状态,通过掩码提议生成器和分类器,反复评估和筛选,实现高质量的分割。研究显示,即使在零样本条件下,CaR在多项指标上也优于传统微调方法。 项目亮点在于其对复杂文本查询的处理和潜在的视频应用潜力,为开放词汇图像分割领域带来了重大突破。论文和项目详情可参考相关链接。
智能视野
06-07 19:14:35
CLIP
RNN
零样本语义分割
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序