
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
8月24日,Meta宣布推出Reels短视频音频翻译功能,率先上线Facebook和Instagram平台。该功能利用AI技术将视频中的人物语音自动翻译成不同语言,并支持嘴型对齐和双人对话同步翻译,生成与原声相似的音轨以提升自然度。目前支持英语和西班牙语,建议创作者拍摄时使用清晰直述内容以优化效果。此外,Facebook还新增多语言音轨上传选项,创作者可通过Reels编辑器为单条视频添加最多20条音轨,并按观众语言设置自动播放对应版本。这一功能大幅降低了多语言视频制作成本,助力创作者高效分发内容。
原文链接
谢赛宁团队发布MetaCLIP 2模型,支持300多种语言,打破“多语言诅咒”,并提升英语性能。该模型通过扩展元数据、优化筛选算法和调整训练策略,解决了非英语数据处理难题,并在多项任务中创下新SOTA。实验显示,其在ImageNet分类准确率达81.3%,超越纯英语CLIP的80.5%;在多语言图像分类和跨语言检索任务中表现突出。此外,模型嵌入质量更优,在文化多样性任务中表现显著提升。相关论文与代码已开源。
原文链接
7月25日,阿里云通义千问发布Qwen-MT机器翻译模型,支持92种语言互译,覆盖全球95%以上人口。该模型具备术语干预、领域提示等高度可控性功能,适用于复杂专业场景,同时采用轻量级MoE架构,每百万输出token低至2元,兼具低延迟和低成本优势。官方称其在中英、英德多领域翻译任务中表现优于GPT-4.1-mini等同规模模型,与顶级大模型相比也毫不逊色。通过人工评测,Qwen-MT在中文、英语、日语等多种语言翻译中展现出高合格率和优良率。开发者可通过Qwen API体验该模型。
原文链接
6月8日消息,ChatGPT为其付费用户推出了高级语音模式升级。此次升级显著提升了语音的自然度与情感表达,使交互更具“人情味”。新增功能包括多语言翻译,用户可请求语音翻译,系统将在对话中持续提供服务。此更新基于此前对语音模式的改进,优化了语速、停顿及口音问题。不过,测试显示部分语音选项可能存在轻微音频质量下降及音调变化,开发团队正努力解决。此外,语音模式仍偶现“幻觉”现象,如广告声或背景音乐。
原文链接
6月6日凌晨,阿里开源了Qwen3-Embedding系列模型(包括Embedding及Reranker),专为文本表征、检索与排序任务设计。该系列基于Qwen3基础模型训练,在多项基准测试中表现卓越。8B参数规模的Embedding模型在MTEB多语言Leaderboard榜单中得分70.58,位居第一(截至2025年6月6日)。Qwen3-Embedding支持0.6B到8B参数的三种配置,具备灵活架构与多语言支持,覆盖超100种语言,且支持代码检索。Embedding模型通过“EOS”标记生成语义表示,Reranker则计算文本对相关性得分。模型还支持表征维度自定义与指令适配优化。开源地址包括ModelScope、Hugging Face及GitHub。
原文链接
5月17日,苹果联合多国高校及研究院发布最新研究成果,解决AI‘英语口音’难题。研究发现,现有大语言模型在非英语语种输出中普遍存在语法和词汇偏差,即使专为中国优化的Qwen模型,其母语表现仍逊于人类水平。所有模型在非英语输出时仍受英语思维影响。为此,研究团队提出词汇自然性和句法自然性两项量化指标,并采用“回译法”生成训练样本,显著提升多语言自然度。测试涵盖中文、法语、英语等语料。论文已发布于arXiv。
原文链接
4月30日消息,谷歌宣布其AI笔记工具NotebookLM的“音频概览”功能新增76种语言支持,其中包括中文(简体与繁体)。该功能允许用户上传文档(如课程资料或法律摘要),通过AI生成播客,以帮助理解消化内容。此前,该功能仅支持用户首选语言,现在添加了“输出语言”选项,用户可自由选择生成语言。例如,教师可用多种语言为学生提供学习资源,学生则能获取个性化语言的音频概览。新增支持的语言涵盖南非荷兰语、阿拉伯语、中文等多种语种。
原文链接
标题:Anthropic连发两篇论文,AI“黑盒子”被打开了?
人工智能(AI)模型因非编程训练而成,被视为“黑盒子”,我们对其内部运作知之甚少。理解大语言模型(LLM)的思考方式有助于优化其性能并确保其可靠性。
Anthropic公司提出了一种新方法,通过借鉴神经科学,构建类似“显微镜”的工具来追...
原文链接
谷歌推出史上最大视觉语言数据集WebLI-100B,包含1000亿图像-文本对,比前记录扩大10倍。此数据集证明了数据Scaling Law仍有潜力。它在多元文化和多语言方面表现突出,有助于构建更全面的多模态大模型。
研究团队由谷歌DeepMind的Xiao Wang、Ibrahim Alabdul...
原文链接
微软正在拓展Copilot Voice语音交互的多语言支持,从仅限英语扩展到支持德语、法语、西班牙语、印地语等多种语言。Copilot Voice是微软推出的语音助手功能,用户可通过语音进行自然对话,包括提问和发指令。目前,尽管支持多语言,用户仍需主动切换语言,且主要以英语优化为主,其他语言支持处于‘有限容量’状态。未来将逐步扩展。IT之家 2月6日报。
原文链接
加载更多

暂无内容