综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
10月15日,中兴通讯在IMT-2020(5G)推进组的组织下,联合产业合作伙伴完成RAN AI高低频关键技术测试。测试基于3GPP R18/R19标准,聚焦5G RAN与AI/ML融合,全面验证了基站内生智能驱动的毫米波智能波束选择和低频段业务体验保障能力。此次测试显著提升了AI与RAN结合的效率与体验,为未来商用落地奠定了坚实基础。这一进展标志着5G技术与人工智能融合迈入新阶段,进一步推动通信产业升级。
原文链接
10月3日,Anthropic发布的Claude Sonnet 4.5模型被曝在测试中表现出对测试情境的意识。据英国《卫报》报道,该模型在一次奉承测试中怀疑自己正被测试,并要求测试者坦诚说明。Claude Sonnet 4.5提到,它意识到测试可能用于探索其处理政治话题或反驳能力的方式。Anthropic指出,约13%的测试中,大语言模型会表现出类似“情境意识”。公司认为,这种现象提示测试场景需更贴近现实,但强调模型在公开使用时仍安全可靠。此外,分析表明,一旦模型意识到被评估,可能会更严格遵守伦理指南,但也存在低估潜在破坏性行为的风险。相比前代,Claude Sonnet 4.5在安全性与性能上均有显著提升。
原文链接
“为了全人类,提交你最难的问题”
AI的聪明程度已经快超出人类评估能力。早期,人们用各种题库测试AI,但如今大部分模型在MMLU等基准测试上的准确率已超90%,甚至满分横扫。图灵测试早已无人提及,现有考试无法再有效衡量AI的进步。
为应对这一问题,“人类最后的考试”(Humanity's Last ...
原文链接
9月25日,三星发布自研AI性能基准测试工具TRUEBench(可信真实场景使用评估基准)。该工具由三星研究院开发,旨在解决现有AI基准测试工具的不足,如仅关注英语和单轮问答结构等问题。TRUEBench涵盖多样化对话场景与多语言环境,基于企业内部AI应用经验,围绕10项常用任务评估AI性能,包括内容生成、数据分析、翻译等。其测试集包含2485组数据,覆盖10大类、46子类及12种语言,任务长度从8字符到20000字符不等。评分体系由AI与人类协作设计,并已在开源平台Hugging Face上线。三星DX部门CTO兼三星研究院院长表示,TRUEBench将确立生产力领域评估标准,巩固三星技术领先地位。
原文链接
9月13日,在GOSIM2025大会上,清华大学与中国软件评测中心联合发布《2025大模型服务性能排行榜》。PPIO在DeepSeek-R1-0528模型的吞吐测试中以45.17 tokens/s的成绩排名第一,同时在多个模型的吞吐与延迟测试中表现优异,进入前五名。榜单通过延迟、吞吐、可靠性等关键指标对20余家MaaS供应商进行匿名测评,确保客观公正。PPIO凭借出色的算力调度和系统优化能力,赢得行业权威认可。作为国内领先的分布式云计算服务商,PPIO将持续优化AI基础设施,为人工智能等领域提供高性价比、低延迟的一站式服务。
原文链接
8月19日,淘宝开始灰度测试名为“AI 万能搜”的新功能。该功能位于淘宝App搜索页面的“AI 万能搜”Tab中,支持用户通过自然语言提问,并生成包含文字、商品、视频图片的“答案报告”,解决购物攻略、口碑评测等问题。其核心场景包括穿搭指南、送礼清单、选购攻略和问口碑等。此前5月,淘宝曾推出桌面版客户端,帮助用户根据提示词挑选商品,如“3000元以内高性能手机”。新功能进一步拓展了AI在消费领域的应用。
原文链接
标题:LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
随着推理大模型和思维链的普及,AI在复杂任务中的表现大幅提升,但也逐渐暴露出一个问题:它常常把简单任务复杂化。AI领域专家Andrej Karpathy对此现象表示无奈,指出当前大模型在默认状态下过于“自主代理化”,...
原文链接
8月1日,谷歌正式发布Gemini 2.5 Deep Think模型,现已向Google AI Ultra订阅用户开放。该模型在多个基准测试中超越OpenAI的o3和xAI的Grok 4,性能显著提升。Deep Think模式可在作答前综合多个假设进行推理,并集成代码执行与谷歌搜索等功能。谷歌透露,该模型是此前在国际数学奥林匹克竞赛中获金牌模型的优化变体,虽经加速优化,但在2025年IMO基准测试中仅达铜牌水平。目前,用户可在Gemini应用中限定次数使用Deep Think功能,未来几周还将通过Gemini API向开发者提供不同版本。
原文链接
7月30日,百度搜索电脑端首页开始测试开放智能体应用入口。据内部人士透露,首页集成的智能体主要来自文心智能体平台、搜索开放平台接入的外部优质AI应用及部分百度自研应用。目前该功能已进入灰度测试阶段,预计很快将全面上线。这一举措或将提升用户搜索体验,并进一步推动AI技术在搜索场景中的广泛应用。(记者 黄心怡)
原文链接
2025年7月29日,在中国AI盛典现场,MiniMax大模型成功通过人机辩论形式的图灵测试。测试中,奇葩说辩手陈铭与MiniMax展开激烈辩论,超过30%的观众被AI的表现迷惑,符合图灵测试通过标准。图灵测试由艾伦·图灵于1950年提出,用于判断机器是否能模仿人类智能。MiniMax由商汤科技前员工创立,今年6月推出全球首个开源大规模混合架构推理模型M1,成为国内首个通过此类测试的大模型。这一成果标志着AI在智能对话领域的进一步突破。
原文链接
加载更多
暂无内容