Udio - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

高效开发 AI 智能体：微软上线 VS Code 版 Copilot Studio 扩展

1月16日，微软推出VS Code版Copilot Studio扩展，此前该工具已在VS Code市场公测并获超13000次下载。这一扩展支持开发者在IDE中直接构建和管理AI智能体，将AI开发融入标准软件工程流程。新工具提供语法高亮、类IntelliSense代码补全功能，降低错误率并优化逻辑设计。同时，它集成Git版本控制系统，支持版本管理、修改追踪及云端比对，解决协作冲突问题。此外，扩展支持CI/CD流水线，便于跨环境测试与迁移，并整合GitHub Copilot和Claude Code等AI助手，提升开发效率。

原文链接

数字墨迹

01-16 10:27:06

AI智能体

Copilot Studio

VS Code

分享至

打开微信扫一扫

内容投诉

生成图片

阶跃星辰：旗下开源语音模型 Step-Audio-R1.1 在全球权威评测中登顶

1月15日，阶跃星辰宣布其开源语音模型Step-Audio-R1.1在全球权威评测榜单Artificial Analysis Speech Reasoning中登顶榜首。该榜单专注于评估原生语音模型的复杂逻辑推理能力，核心指标包括准确率和首包延迟等。Step-Audio-R1.1以96.4%的准确率超越Grok、Gemini、GPT-Realtime等主流模型，刷新历史最佳成绩，并在性能与速度上全面领先。作为全球首个开源原生语音推理模型，Step-Audio-R1系列具备深度语音推理、实时响应和音频领域可扩展CoT等核心能力。最新版本R1.1进一步提升实时对话与复杂推理能力，完整实时语音API预计2月上线，目前chat模式已支持流式推理功能。

原文链接

数码游侠

01-15 15:42:50

Step-Audio-R1.1

语音模型

阶跃星辰

分享至

打开微信扫一扫

内容投诉

生成图片

四台Mac Studio合体变身AI集群！1.5TB内存、硬件成本近30万

12月25日，知名工程师Jeff Geerling利用macOS 26.2新特性，将四台M3 Ultra Mac Studio合体，打造出拥有1.5TB统一内存的AI计算集群。关键在于RDMA over Thunderbolt 5技术，使设备间内存直接访问延迟降至50微秒以下。测试显示，该集群在Geekbench 6多核性能中超越同类产品，双精度浮点性能超1TFLOPS，闲置功耗低于10W。AI推理方面，运行Llama 3.2 3B模型每秒处理154.6个token，大型模型Llama 3.1 70B达14.1 token/s，并成功运行DeepSeek R1 671B超大型模型。此外，Qwen3 235B测试中每秒处理31.9 token，DeepSeek V3.1达32.5 token/s。但高负荷下偶有系统崩溃问题。硬件成本约4万美元（约合人民币28万元）。

原文链接

WisdomTrail

12-25 17:53:03

AI集群

Mac Studio

RDMA over Thunderbolt 5

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义发布端到端语音交互模型 Fun-Audio-Chat，能猜出你的心情

12月23日，阿里通义发布端到端语音交互模型Fun-Audio-Chat，同时开源Fun-Audio-Chat 8B版本。该模型在多个榜单中同尺寸模型排名第一，性能优于GLM4-Voice、Kimi-Audio等竞品。技术亮点包括端到端S2S架构，无需多模块拼接；双分辨率设计降低GPU计算开销近50%；以及基于百万小时多任务数据训练，覆盖真实场景如情感识别和工具调用。Fun-Audio-Chat可感知用户情绪，从语气、语速等细节推测心情，并提供类人化对话体验，还能通过自然语音指令完成复杂任务。项目已上线GitHub、HuggingFace等平台供开发者使用。

原文链接

E-Poet

12-23 18:53:47

Fun-Audio-Chat

情绪识别

端到端语音交互

分享至

打开微信扫一扫

内容投诉

生成图片

阿里发布端到端语音交互模型Fun-Audio-Chat

12月23日，阿里巴巴发布新一代端到端语音交互模型Fun-Audio-Chat，并宣布开源8B模型权重、推理代码及Function Call接入示例。这一模型由通义大模型团队推出，旨在提升语音交互的效率与自然度，为开发者提供更强大的技术支持。此次开源举措将进一步推动语音交互技术的创新与应用落地，助力行业生态发展。

原文链接

智能涌动

12-23 17:52:22

Fun-Audio-Chat

端到端语音交互模型

阿里

分享至

打开微信扫一扫

内容投诉

生成图片

从视频一键提取某个声音：Meta 发布 SAM Audio，多模态音频分离新突破

正文：2025年12月17日，Meta发布多模态音频分离模型SAM Audio，可从复杂音频中提取特定声音。该模型支持文本、视觉和时间片段提示，用户可通过输入关键词、点击视频目标或标记时间段实现精准音频分离，例如提取乐队演出中的吉他声或过滤嘈杂环境音。其核心引擎Perception Encoder Audiovisual（PE-AV）基于开源技术构建，扩展了计算机视觉在音频领域的应用。同时，Meta推出首个真实场景音频分离基准测试SAM Audio-Bench及自动评估模型SAM Audio Judge，进一步推动音频处理技术发展。

原文链接

蝶舞CyberSwirl

12-18 00:10:29

Meta

SAM Audio

多模态音频分离

分享至

打开微信扫一扫

内容投诉

生成图片

零代码利器：谷歌新工具让你创建“AI 打工人”，自动化完成重复性工作

12月4日，谷歌推出Workspace Studio，一款零代码工具，支持用户通过自然语言创建、管理和分享AI智能体（AI Agents），自动化完成重复性工作。用户无需编程知识，只需描述任务需求，Gemini模型即可生成定制化智能体，例如邮件关键词通知等功能。该工具适用于非技术人员，可轻松构建复杂自动化流程，并支持团队内部共享高效智能体。Workspace Studio还具备跨平台集成能力，兼容Asana、Jira等主流生产力工具，打破数据孤岛，实现综合自动化。谷歌计划后续推出增强外部共享、邮件发送及Webhook支持等高级功能。目前，该服务仅限Google Workspace商业版、企业版和教育版用户使用。

原文链接

梦境编程师

12-04 14:24:13

AI智能体

Workspace Studio

自动化

分享至

打开微信扫一扫

内容投诉

生成图片

AI 公司 Udio 与华纳音乐达成和解，将共同构建版权付费创作平台

11月19日，AI音乐公司Udio与华纳音乐达成授权协议并解决版权诉讼，将合作开发下一代AI音乐服务。新平台允许用户使用合作艺术家的声音和风格创作混音、翻唱及新歌，同时确保歌手和词曲作者获得收入，保障音乐人权益。Udio表示，这一合作旨在为AI音乐创作者提供长期发展机遇，同时维护传统艺术家利益。此前，环球音乐也曾与Udio达成类似和解并计划推出音乐创作平台。

原文链接

Oasis

11-21 17:32:44

Udio

华纳音乐

版权付费创作平台

分享至

打开微信扫一扫

内容投诉

生成图片

Gemini 3 Pro Preview 模型已上线谷歌 AI Studio

11月18日，谷歌宣布其最新大型语言模型Gemini 3即将在未来数小时至数日内正式发布。目前，Gemini 3 Pro Preview版本已率先上线AI Studio平台，供开发者、研究人员及学生使用。AI Studio支持灵活调整上下文长度、温度等参数，此前用户主要使用Gemini 2.5 Pro版本。Gemini 3将首先在AI Studio上线，随后扩展至公众网站gemini.google.com。此外，该模型的Pro版本也已在Vertex AI平台中被发现，标识为“gemini-3-pro-preview-11-2025”。Vertex AI是谷歌专为企业级AI开发与部署设计的云端平台。

原文链接

虚拟织梦者

11-19 00:45:59

AI Studio

Gemini 3 Pro Preview

Vertex AI

分享至

打开微信扫一扫

内容投诉

生成图片

曾索赔每首歌 15 万美元，环球音乐与 AI 公司 Udio 达成和解并将合作推出音乐创作平台

10月29日，环球音乐集团（UMG）与AI音乐平台Udio宣布达成战略合作协议，解决此前的版权侵权诉讼，并计划于2026年推出创新音乐创作平台。新平台将基于授权音乐作品训练的生成式AI技术，提供订阅服务，支持用户定制、播放和分享音乐，同时为艺术家和词曲作者创造更多收入机会。此前，环球音乐等唱片公司曾起诉Udio和Suno，指控其未经授权复制数千首歌曲用于AI训练，要求每首歌赔偿15万美元。此次合作标志着行业在AI与音乐版权问题上的重要进展。

原文链接