
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年9月1日,阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini,并在多个国际基准测试中取得SOTA成绩。该模型统一语音理解、音频推理与生成,支持语音原生Tool Calling能力,可实现联网搜索等操作。其综合性能超越Qwen-Omni、Kimi-Audio等开源模型及GPT-4o Audio,在音频理解、语音识别、翻译和对话场景中表现突出。例如,在中英互译任务上,其CoVoST 2和CVSS评分分别达39.3和29.1;语音识别任务中,中文CER为3.19,英语WER为3.50,领先其他开源模型15%以上。通过真端到端多模态架构、CoT推理结合强化学习及音频知识增强,Step-Audio 2 mini有效解决传统语音模型智商情商不足的问题,现已上线阶跃星辰开放平台并开源。
原文链接
9月1日,阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini。该模型统一建模语音理解、音频推理与生成,在音频理解、语音识别、跨语种翻译、情感解析、副语言解析及语音对话等任务中表现出色。它率先支持语音原生的Tool Calling能力,可实现联网搜索等功能,为语音技术领域带来新突破。
原文链接
8月29日,微软在Copilot Labs推出全新AI语音生成工具Copilot Audio Expressions,支持Emotive和Story两种模式。该工具可生成最长90秒的多角色叙述音频,语音表现更接近真人。Emotive模式允许用户选择音色和风格,生成生动表达的音频,单段最长59秒;Story模式则根据主题自动生成音色与风格,适合复杂情节与多角色对话。测试显示,其输出效果自然流畅,适用于创意作品制作。目前仅支持英文,暂无多语言支持计划。
原文链接
2025年8月29日,谷歌AI Studio正式上线了神秘图片生成模型nano-banana。此前,该模型在大模型竞技场LMArena中表现出色,以超强的一致性和提示词理解能力击败众多生图模型,荣登榜单第一。谷歌产品经理通过发香蕉表情暗中认领了这一模型。nano-banana擅长保持图像一致性,支持多轮修图、风格变换及3D手办生成,细节处理尤为出色。但其风格变换较为中规中矩,且对提示词要求较高,需详细描述才能达到理想效果。此外,模型因安全性调教较严格,部分关键词可能受限。目前,nano-banana已整合进Gemini 2.5 Flash版本,免费账户也可使用,同时在LMArena和第三方平台如LibLib、Fal-ai上均可体验。
原文链接
8月13日,微软宣布在Visual Studio中通过GitHub Copilot上线GPT-5模型。这一最新模型由OpenAI发布,具备显著提升的复杂任务推理与决策能力,可生成高质量、易维护的代码,并提供清晰的修改解释和灵活的自动化支持,有助于加速开发流程。然而,外界反应不一,有用户反馈GPT-5重构代码库后新增大量文件却无法运行。目前,付费GitHub Copilot用户将陆续收到更新,但因分阶段推送,可能无法立即使用。企业用户需管理员启用相关策略才能选择GPT-5,同时部分旧模型将逐步停用。
原文链接
标题:40万的Mac Studio“缝合怪”,双开满血DeepSeek不在话下
几个月前,爱范儿成功在一台M3 Ultra的Mac Studio上部署了671B参数的DeepSeek本地大模型(4-bit量化版)。如果用4台顶配Mac Studio组成“桌面级AI集群”,能否将本地推理性能推向新...
原文链接
2023年7月1日,微软在MIT许可证下开源了适用于Visual Studio Code的GitHub Copilot Chat扩展源代码,开发社区可深入了解其AI编码助手的实现细节。该扩展支持开发者在编辑器内与基于GPT-4的模型对话获取帮助,目前已安装超过3500万次。微软表示这是将AI功能集成到VS Code中的重要里程碑,并计划在未来几个月将原GitHub Copilot的代码也整合到该开源模块中,提升AI辅助编程的透明度和可用性。
原文链接
标题:清华南洋理工联合发布首个音频大模型可信度评估基准
首个专为音频大语言模型(ALLMs)设计的多维度可信度评估基准AudioTrust发布。由南洋理工和清华大学领衔的研究团队指出,现有评估框架多聚焦文本模态或覆盖安全维度有限,未充分考虑音频模态特性。
AudioTrust创新性提出六大核...
原文链接
AI建模神器Tripo Studio大升级:智能部件分割、魔法笔刷、低模生成、自动绑骨,让非专业人士也能轻松建模。
AI建模界的“作弊神器”来了!3D大模型公司VAST推出全新Tripo Studio,四大核心功能直击建模痛点:智能部件分割、贴图魔法笔刷、智能低模生成、万物自动绑骨。过去复杂的建模流程现在一键搞定,告别繁琐的手动调整。
智能部件分割实现精准拆分,无论是3D打印还是游戏制作都受益匪浅。贴图魔法笔刷让瑕疵修复变得简单,只需圈选区域即可自动修复。智能低模生成一键优化模型,大幅提升运行效率。万物自动绑骨支持多种模型快速绑定,大幅节省时间。
VAST团队持续创新,Tripo Studio集成多项开源算法,从算法到工具全面升级,重塑3D创作流程。未来,成果交付将成为3D创作的核心价值。
原文链接
5月14日,AI初创公司Stability AI推出Stable Audio Open Small,号称是目前市场上速度最快的端侧音频生成AI模型,可在智能手机上运行。相比Suno和Udio等应用,该模型无需依赖云端,能在8秒内生成最长11秒的音频片段,适合快速制作音效。Stability AI与Arm合作优化,使其能在智能手机离线运行。训练数据来自Free Music Archive和Freesound免版税库,避免了版权争议。不过,该模型目前仅支持英文提示,且生成的音乐类型表现差异较大,尤其缺乏逼真歌声或高质量歌曲。使用条款规定,年收入低于100万美元的用户可免费使用,超出者需购买企业许可证。
原文链接
加载更多

暂无内容