1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
阶跃星辰发布端到端语音大模型 Step-Audio 2 mini,多个基准测试取得 SOTA 成绩
2025年9月1日,阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini,并在多个国际基准测试中取得SOTA成绩。该模型统一语音理解、音频推理与生成,支持语音原生Tool Calling能力,可实现联网搜索等操作。其综合性能超越Qwen-Omni、Kimi-Audio等开源模型及GPT-4o Audio,在音频理解、语音识别、翻译和对话场景中表现突出。例如,在中英互译任务上,其CoVoST 2和CVSS评分分别达39.3和29.1;语音识别任务中,中文CER为3.19,英语WER为3.50,领先其他开源模型15%以上。通过真端到端多模态架构、CoT推理结合强化学习及音频知识增强,Step-Audio 2 mini有效解决传统语音模型智商情商不足的问题,现已上线阶跃星辰开放平台并开源。
代码编织者Nexus
09-01 15:21:09
SOTA
Step-Audio 2 mini
端到端语音模型
分享至
打开微信扫一扫
内容投诉
生成图片
阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini
9月1日,阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini。该模型统一建模语音理解、音频推理与生成,在音频理解、语音识别、跨语种翻译、情感解析、副语言解析及语音对话等任务中表现出色。它率先支持语音原生的Tool Calling能力,可实现联网搜索等功能,为语音技术领域带来新突破。
AI奇点纪元
09-01 12:18:45
Step-Audio 2 mini
语音大模型
阶跃星辰
分享至
打开微信扫一扫
内容投诉
生成图片
微软解锁 AI 配音新技能:生成最长 90 秒多角色叙述,语音更像真人
8月29日,微软在Copilot Labs推出全新AI语音生成工具Copilot Audio Expressions,支持Emotive和Story两种模式。该工具可生成最长90秒的多角色叙述音频,语音表现更接近真人。Emotive模式允许用户选择音色和风格,生成生动表达的音频,单段最长59秒;Story模式则根据主题自动生成音色与风格,适合复杂情节与多角色对话。测试显示,其输出效果自然流畅,适用于创意作品制作。目前仅支持英文,暂无多语言支持计划。
GhostPilot
08-30 15:51:23
AI语音生成
Copilot Audio Expressions
微软
分享至
打开微信扫一扫
内容投诉
生成图片
隐姓埋名的小香蕉 悄悄吊着打所有生图模型!
2025年8月29日,谷歌AI Studio正式上线了神秘图片生成模型nano-banana。此前,该模型在大模型竞技场LMArena中表现出色,以超强的一致性和提示词理解能力击败众多生图模型,荣登榜单第一。谷歌产品经理通过发香蕉表情暗中认领了这一模型。nano-banana擅长保持图像一致性,支持多轮修图、风格变换及3D手办生成,细节处理尤为出色。但其风格变换较为中规中矩,且对提示词要求较高,需详细描述才能达到理想效果。此外,模型因安全性调教较严格,部分关键词可能受限。目前,nano-banana已整合进Gemini 2.5 Flash版本,免费账户也可使用,同时在LMArena和第三方平台如LibLib、Fal-ai上均可体验。
量子黑客
08-29 07:35:15
nano-banana
生图模型
谷歌AI Studio
分享至
打开微信扫一扫
内容投诉
生成图片
微软 Visual Studio 上线 GPT-5,复杂任务推理决策能力“大幅”提升
8月13日,微软宣布在Visual Studio中通过GitHub Copilot上线GPT-5模型。这一最新模型由OpenAI发布,具备显著提升的复杂任务推理与决策能力,可生成高质量、易维护的代码,并提供清晰的修改解释和灵活的自动化支持,有助于加速开发流程。然而,外界反应不一,有用户反馈GPT-5重构代码库后新增大量文件却无法运行。目前,付费GitHub Copilot用户将陆续收到更新,但因分阶段推送,可能无法立即使用。企业用户需管理员启用相关策略才能选择GPT-5,同时部分旧模型将逐步停用。
超频思维站
08-13 08:31:33
GPT-5
Visual Studio
代码生成
分享至
打开微信扫一扫
内容投诉
生成图片
俩人拼出40万的Mac Studio“缝合怪”,双开满血DeepSeek 都不在话下
标题:40万的Mac Studio“缝合怪”,双开满血DeepSeek不在话下 几个月前,爱范儿成功在一台M3 Ultra的Mac Studio上部署了671B参数的DeepSeek本地大模型(4-bit量化版)。如果用4台顶配Mac Studio组成“桌面级AI集群”,能否将本地推理性能推向新...
Nebula
08-09 11:28:33
DeepSeek
EXO Labs
Mac Studio
分享至
打开微信扫一扫
内容投诉
生成图片
微软开源适用于 VS Code 的 GitHub Copilot Chat 扩展,助推 AI 编程自动化
2023年7月1日,微软在MIT许可证下开源了适用于Visual Studio Code的GitHub Copilot Chat扩展源代码,开发社区可深入了解其AI编码助手的实现细节。该扩展支持开发者在编辑器内与基于GPT-4的模型对话获取帮助,目前已安装超过3500万次。微软表示这是将AI功能集成到VS Code中的重要里程碑,并计划在未来几个月将原GitHub Copilot的代码也整合到该开源模块中,提升AI辅助编程的透明度和可用性。
数码游侠
07-02 14:06:53
GitHub Copilot Chat
Visual Studio Code
微软
分享至
打开微信扫一扫
内容投诉
生成图片
音频大模型安全可信度的全面“体检”!清华南洋理工联手打造
标题:清华南洋理工联合发布首个音频大模型可信度评估基准 首个专为音频大语言模型(ALLMs)设计的多维度可信度评估基准AudioTrust发布。由南洋理工和清华大学领衔的研究团队指出,现有评估框架多聚焦文本模态或覆盖安全维度有限,未充分考虑音频模态特性。 AudioTrust创新性提出六大核...
AGI探路者
06-03 18:00:57
AudioTrust
可信度评估
音频大模型
分享至
打开微信扫一扫
内容投诉
生成图片
不懂建模也能做角色!VAST升级AI神器,一手实测来了:一键拆建/魔法笔刷/万物绑骨
AI建模神器Tripo Studio大升级:智能部件分割、魔法笔刷、低模生成、自动绑骨,让非专业人士也能轻松建模。 AI建模界的“作弊神器”来了!3D大模型公司VAST推出全新Tripo Studio,四大核心功能直击建模痛点:智能部件分割、贴图魔法笔刷、智能低模生成、万物自动绑骨。过去复杂的建模流程现在一键搞定,告别繁琐的手动调整。 智能部件分割实现精准拆分,无论是3D打印还是游戏制作都受益匪浅。贴图魔法笔刷让瑕疵修复变得简单,只需圈选区域即可自动修复。智能低模生成一键优化模型,大幅提升运行效率。万物自动绑骨支持多种模型快速绑定,大幅节省时间。 VAST团队持续创新,Tripo Studio集成多项开源算法,从算法到工具全面升级,重塑3D创作流程。未来,成果交付将成为3D创作的核心价值。
新智燎原
05-29 16:35:52
3D创作
AI建模
TripoStudio
分享至
打开微信扫一扫
内容投诉
生成图片
速度最快:Stable Audio Open Small 端侧音频模型登场,手机上 8 秒内 AI 生成 11 秒音频
5月14日,AI初创公司Stability AI推出Stable Audio Open Small,号称是目前市场上速度最快的端侧音频生成AI模型,可在智能手机上运行。相比Suno和Udio等应用,该模型无需依赖云端,能在8秒内生成最长11秒的音频片段,适合快速制作音效。Stability AI与Arm合作优化,使其能在智能手机离线运行。训练数据来自Free Music Archive和Freesound免版税库,避免了版权争议。不过,该模型目前仅支持英文提示,且生成的音乐类型表现差异较大,尤其缺乏逼真歌声或高质量歌曲。使用条款规定,年收入低于100万美元的用户可免费使用,超出者需购买企业许可证。
DreamCoder
05-16 14:19:16
AI音频模型
Stable Audio Open Small
智能手机
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序