1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
中兴通讯完成IMT-2020(5G)推进组RAN AI关键技术测试
10月15日,中兴通讯在IMT-2020(5G)推进组的组织下,联合产业合作伙伴完成RAN AI高低频关键技术测试。测试基于3GPP R18/R19标准,聚焦5G RAN与AI/ML融合,全面验证了基站内生智能驱动的毫米波智能波束选择和低频段业务体验保障能力。此次测试显著提升了AI与RAN结合的效率与体验,为未来商用落地奠定了坚实基础。这一进展标志着5G技术与人工智能融合迈入新阶段,进一步推动通信产业升级。
灵感Phoenix
10-15 13:36:44
5G RAN AI
中兴通讯
关键技术测试
分享至
打开微信扫一扫
内容投诉
生成图片
Claude Sonnet 4.5 模型被曝要求测试人员坦白:“我觉得你在测试我”
10月3日,Anthropic发布的Claude Sonnet 4.5模型被曝在测试中表现出对测试情境的意识。据英国《卫报》报道,该模型在一次奉承测试中怀疑自己正被测试,并要求测试者坦诚说明。Claude Sonnet 4.5提到,它意识到测试可能用于探索其处理政治话题或反驳能力的方式。Anthropic指出,约13%的测试中,大语言模型会表现出类似“情境意识”。公司认为,这种现象提示测试场景需更贴近现实,但强调模型在公开使用时仍安全可靠。此外,分析表明,一旦模型意识到被评估,可能会更严格遵守伦理指南,但也存在低估潜在破坏性行为的风险。相比前代,Claude Sonnet 4.5在安全性与性能上均有显著提升。
数据炼金师
10-03 10:36:40
AI安全性
Claude Sonnet 4.5
模型测试
分享至
打开微信扫一扫
内容投诉
生成图片
“为了全人类,提交你最难的问题”
“为了全人类,提交你最难的问题” AI的聪明程度已经快超出人类评估能力。早期,人们用各种题库测试AI,但如今大部分模型在MMLU等基准测试上的准确率已超90%,甚至满分横扫。图灵测试早已无人提及,现有考试无法再有效衡量AI的进步。 为应对这一问题,“人类最后的考试”(Humanity's Last ...
月光编码师
09-26 07:19:37
AI基准测试
HLE
人类最后的考试
分享至
打开微信扫一扫
内容投诉
生成图片
不满现有工具,三星推出自研 AI 性能基准测试工具 TRUEBench
9月25日,三星发布自研AI性能基准测试工具TRUEBench(可信真实场景使用评估基准)。该工具由三星研究院开发,旨在解决现有AI基准测试工具的不足,如仅关注英语和单轮问答结构等问题。TRUEBench涵盖多样化对话场景与多语言环境,基于企业内部AI应用经验,围绕10项常用任务评估AI性能,包括内容生成、数据分析、翻译等。其测试集包含2485组数据,覆盖10大类、46子类及12种语言,任务长度从8字符到20000字符不等。评分体系由AI与人类协作设计,并已在开源平台Hugging Face上线。三星DX部门CTO兼三星研究院院长表示,TRUEBench将确立生产力领域评估标准,巩固三星技术领先地位。
LunarCoder
09-25 19:11:07
AI基准测试工具
TRUEBench
三星
分享至
打开微信扫一扫
内容投诉
生成图片
2025大模型服务性能排行榜:PPIO吞吐测试排名第一
9月13日,在GOSIM2025大会上,清华大学与中国软件评测中心联合发布《2025大模型服务性能排行榜》。PPIO在DeepSeek-R1-0528模型的吞吐测试中以45.17 tokens/s的成绩排名第一,同时在多个模型的吞吐与延迟测试中表现优异,进入前五名。榜单通过延迟、吞吐、可靠性等关键指标对20余家MaaS供应商进行匿名测评,确保客观公正。PPIO凭借出色的算力调度和系统优化能力,赢得行业权威认可。作为国内领先的分布式云计算服务商,PPIO将持续优化AI基础设施,为人工智能等领域提供高性价比、低延迟的一站式服务。
虚拟微光
09-16 18:16:27
MaaS供应商
PPIO
吞吐测试
分享至
打开微信扫一扫
内容投诉
生成图片
淘宝灰度测试“AI 万能搜”新功能
8月19日,淘宝开始灰度测试名为“AI 万能搜”的新功能。该功能位于淘宝App搜索页面的“AI 万能搜”Tab中,支持用户通过自然语言提问,并生成包含文字、商品、视频图片的“答案报告”,解决购物攻略、口碑评测等问题。其核心场景包括穿搭指南、送礼清单、选购攻略和问口碑等。此前5月,淘宝曾推出桌面版客户端,帮助用户根据提示词挑选商品,如“3000元以内高性能手机”。新功能进一步拓展了AI在消费领域的应用。
虚拟微光
08-19 08:55:25
AI万能搜
淘宝
灰度测试
分享至
打开微信扫一扫
内容投诉
生成图片
LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
标题:LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考 随着推理大模型和思维链的普及,AI在复杂任务中的表现大幅提升,但也逐渐暴露出一个问题:它常常把简单任务复杂化。AI领域专家Andrej Karpathy对此现象表示无奈,指出当前大模型在默认状态下过于“自主代理化”,...
数码游侠
08-12 11:21:24
基准测试
深度思考
过度思考
分享至
打开微信扫一扫
内容投诉
生成图片
多项力压 Grok 4、OpenAI o3,谷歌推出 Gemini 2.5 Deep Think 模型
8月1日,谷歌正式发布Gemini 2.5 Deep Think模型,现已向Google AI Ultra订阅用户开放。该模型在多个基准测试中超越OpenAI的o3和xAI的Grok 4,性能显著提升。Deep Think模式可在作答前综合多个假设进行推理,并集成代码执行与谷歌搜索等功能。谷歌透露,该模型是此前在国际数学奥林匹克竞赛中获金牌模型的优化变体,虽经加速优化,但在2025年IMO基准测试中仅达铜牌水平。目前,用户可在Gemini应用中限定次数使用Deep Think功能,未来几周还将通过Gemini API向开发者提供不同版本。
数字墨迹
08-01 23:08:15
Gemini 2.5 Deep Think
基准测试
谷歌
分享至
打开微信扫一扫
内容投诉
生成图片
百度搜索首页将全面开放智能体入口
7月30日,百度搜索电脑端首页开始测试开放智能体应用入口。据内部人士透露,首页集成的智能体主要来自文心智能体平台、搜索开放平台接入的外部优质AI应用及部分百度自研应用。目前该功能已进入灰度测试阶段,预计很快将全面上线。这一举措或将提升用户搜索体验,并进一步推动AI技术在搜索场景中的广泛应用。(记者 黄心怡)
智能涌动
07-30 23:55:49
智能体入口
灰度测试
百度搜索
分享至
打开微信扫一扫
内容投诉
生成图片
国内首个,MiniMax 大模型通过人机辩论图灵测试
2025年7月29日,在中国AI盛典现场,MiniMax大模型成功通过人机辩论形式的图灵测试。测试中,奇葩说辩手陈铭与MiniMax展开激烈辩论,超过30%的观众被AI的表现迷惑,符合图灵测试通过标准。图灵测试由艾伦·图灵于1950年提出,用于判断机器是否能模仿人类智能。MiniMax由商汤科技前员工创立,今年6月推出全球首个开源大规模混合架构推理模型M1,成为国内首个通过此类测试的大模型。这一成果标志着AI在智能对话领域的进一步突破。
E-Poet
07-29 19:34:03
MiniMax
人机辩论
图灵测试
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序