综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
1月16日,微软推出VS Code版Copilot Studio扩展,此前该工具已在VS Code市场公测并获超13000次下载。这一扩展支持开发者在IDE中直接构建和管理AI智能体,将AI开发融入标准软件工程流程。新工具提供语法高亮、类IntelliSense代码补全功能,降低错误率并优化逻辑设计。同时,它集成Git版本控制系统,支持版本管理、修改追踪及云端比对,解决协作冲突问题。此外,扩展支持CI/CD流水线,便于跨环境测试与迁移,并整合GitHub Copilot和Claude Code等AI助手,提升开发效率。
原文链接
1月15日,阶跃星辰宣布其开源语音模型Step-Audio-R1.1在全球权威评测榜单Artificial Analysis Speech Reasoning中登顶榜首。该榜单专注于评估原生语音模型的复杂逻辑推理能力,核心指标包括准确率和首包延迟等。Step-Audio-R1.1以96.4%的准确率超越Grok、Gemini、GPT-Realtime等主流模型,刷新历史最佳成绩,并在性能与速度上全面领先。作为全球首个开源原生语音推理模型,Step-Audio-R1系列具备深度语音推理、实时响应和音频领域可扩展CoT等核心能力。最新版本R1.1进一步提升实时对话与复杂推理能力,完整实时语音API预计2月上线,目前chat模式已支持流式推理功能。
原文链接
12月25日,知名工程师Jeff Geerling利用macOS 26.2新特性,将四台M3 Ultra Mac Studio合体,打造出拥有1.5TB统一内存的AI计算集群。关键在于RDMA over Thunderbolt 5技术,使设备间内存直接访问延迟降至50微秒以下。测试显示,该集群在Geekbench 6多核性能中超越同类产品,双精度浮点性能超1TFLOPS,闲置功耗低于10W。AI推理方面,运行Llama 3.2 3B模型每秒处理154.6个token,大型模型Llama 3.1 70B达14.1 token/s,并成功运行DeepSeek R1 671B超大型模型。此外,Qwen3 235B测试中每秒处理31.9 token,DeepSeek V3.1达32.5 token/s。但高负荷下偶有系统崩溃问题。硬件成本约4万美元(约合人民币28万元)。
原文链接
12月23日,阿里通义发布端到端语音交互模型Fun-Audio-Chat,同时开源Fun-Audio-Chat 8B版本。该模型在多个榜单中同尺寸模型排名第一,性能优于GLM4-Voice、Kimi-Audio等竞品。技术亮点包括端到端S2S架构,无需多模块拼接;双分辨率设计降低GPU计算开销近50%;以及基于百万小时多任务数据训练,覆盖真实场景如情感识别和工具调用。Fun-Audio-Chat可感知用户情绪,从语气、语速等细节推测心情,并提供类人化对话体验,还能通过自然语音指令完成复杂任务。项目已上线GitHub、HuggingFace等平台供开发者使用。
原文链接
12月23日,阿里巴巴发布新一代端到端语音交互模型Fun-Audio-Chat,并宣布开源8B模型权重、推理代码及Function Call接入示例。这一模型由通义大模型团队推出,旨在提升语音交互的效率与自然度,为开发者提供更强大的技术支持。此次开源举措将进一步推动语音交互技术的创新与应用落地,助力行业生态发展。
原文链接
正文:2025年12月17日,Meta发布多模态音频分离模型SAM Audio,可从复杂音频中提取特定声音。该模型支持文本、视觉和时间片段提示,用户可通过输入关键词、点击视频目标或标记时间段实现精准音频分离,例如提取乐队演出中的吉他声或过滤嘈杂环境音。其核心引擎Perception Encoder Audiovisual(PE-AV)基于开源技术构建,扩展了计算机视觉在音频领域的应用。同时,Meta推出首个真实场景音频分离基准测试SAM Audio-Bench及自动评估模型SAM Audio Judge,进一步推动音频处理技术发展。
原文链接
12月4日,谷歌推出Workspace Studio,一款零代码工具,支持用户通过自然语言创建、管理和分享AI智能体(AI Agents),自动化完成重复性工作。用户无需编程知识,只需描述任务需求,Gemini模型即可生成定制化智能体,例如邮件关键词通知等功能。该工具适用于非技术人员,可轻松构建复杂自动化流程,并支持团队内部共享高效智能体。Workspace Studio还具备跨平台集成能力,兼容Asana、Jira等主流生产力工具,打破数据孤岛,实现综合自动化。谷歌计划后续推出增强外部共享、邮件发送及Webhook支持等高级功能。目前,该服务仅限Google Workspace商业版、企业版和教育版用户使用。
原文链接
11月19日,AI音乐公司Udio与华纳音乐达成授权协议并解决版权诉讼,将合作开发下一代AI音乐服务。新平台允许用户使用合作艺术家的声音和风格创作混音、翻唱及新歌,同时确保歌手和词曲作者获得收入,保障音乐人权益。Udio表示,这一合作旨在为AI音乐创作者提供长期发展机遇,同时维护传统艺术家利益。此前,环球音乐也曾与Udio达成类似和解并计划推出音乐创作平台。
原文链接
11月18日,谷歌宣布其最新大型语言模型Gemini 3即将在未来数小时至数日内正式发布。目前,Gemini 3 Pro Preview版本已率先上线AI Studio平台,供开发者、研究人员及学生使用。AI Studio支持灵活调整上下文长度、温度等参数,此前用户主要使用Gemini 2.5 Pro版本。Gemini 3将首先在AI Studio上线,随后扩展至公众网站gemini.google.com。此外,该模型的Pro版本也已在Vertex AI平台中被发现,标识为“gemini-3-pro-preview-11-2025”。Vertex AI是谷歌专为企业级AI开发与部署设计的云端平台。
原文链接
10月29日,环球音乐集团(UMG)与AI音乐平台Udio宣布达成战略合作协议,解决此前的版权侵权诉讼,并计划于2026年推出创新音乐创作平台。新平台将基于授权音乐作品训练的生成式AI技术,提供订阅服务,支持用户定制、播放和分享音乐,同时为艺术家和词曲作者创造更多收入机会。此前,环球音乐等唱片公司曾起诉Udio和Suno,指控其未经授权复制数千首歌曲用于AI训练,要求每首歌赔偿15万美元。此次合作标志着行业在AI与音乐版权问题上的重要进展。
原文链接
加载更多
暂无内容