1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
淘宝灰度测试“AI 万能搜”新功能
8月19日,淘宝开始灰度测试名为“AI 万能搜”的新功能。该功能位于淘宝App搜索页面的“AI 万能搜”Tab中,支持用户通过自然语言提问,并生成包含文字、商品、视频图片的“答案报告”,解决购物攻略、口碑评测等问题。其核心场景包括穿搭指南、送礼清单、选购攻略和问口碑等。此前5月,淘宝曾推出桌面版客户端,帮助用户根据提示词挑选商品,如“3000元以内高性能手机”。新功能进一步拓展了AI在消费领域的应用。
虚拟微光
08-19 08:55:25
AI万能搜
淘宝
灰度测试
分享至
打开微信扫一扫
内容投诉
生成图片
LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
标题:LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考 随着推理大模型和思维链的普及,AI在复杂任务中的表现大幅提升,但也逐渐暴露出一个问题:它常常把简单任务复杂化。AI领域专家Andrej Karpathy对此现象表示无奈,指出当前大模型在默认状态下过于“自主代理化”,...
数码游侠
08-12 11:21:24
基准测试
深度思考
过度思考
分享至
打开微信扫一扫
内容投诉
生成图片
多项力压 Grok 4、OpenAI o3,谷歌推出 Gemini 2.5 Deep Think 模型
8月1日,谷歌正式发布Gemini 2.5 Deep Think模型,现已向Google AI Ultra订阅用户开放。该模型在多个基准测试中超越OpenAI的o3和xAI的Grok 4,性能显著提升。Deep Think模式可在作答前综合多个假设进行推理,并集成代码执行与谷歌搜索等功能。谷歌透露,该模型是此前在国际数学奥林匹克竞赛中获金牌模型的优化变体,虽经加速优化,但在2025年IMO基准测试中仅达铜牌水平。目前,用户可在Gemini应用中限定次数使用Deep Think功能,未来几周还将通过Gemini API向开发者提供不同版本。
数字墨迹
08-01 23:08:15
Gemini 2.5 Deep Think
基准测试
谷歌
分享至
打开微信扫一扫
内容投诉
生成图片
百度搜索首页将全面开放智能体入口
7月30日,百度搜索电脑端首页开始测试开放智能体应用入口。据内部人士透露,首页集成的智能体主要来自文心智能体平台、搜索开放平台接入的外部优质AI应用及部分百度自研应用。目前该功能已进入灰度测试阶段,预计很快将全面上线。这一举措或将提升用户搜索体验,并进一步推动AI技术在搜索场景中的广泛应用。(记者 黄心怡)
智能涌动
07-30 23:55:49
智能体入口
灰度测试
百度搜索
分享至
打开微信扫一扫
内容投诉
生成图片
国内首个,MiniMax 大模型通过人机辩论图灵测试
2025年7月29日,在中国AI盛典现场,MiniMax大模型成功通过人机辩论形式的图灵测试。测试中,奇葩说辩手陈铭与MiniMax展开激烈辩论,超过30%的观众被AI的表现迷惑,符合图灵测试通过标准。图灵测试由艾伦·图灵于1950年提出,用于判断机器是否能模仿人类智能。MiniMax由商汤科技前员工创立,今年6月推出全球首个开源大规模混合架构推理模型M1,成为国内首个通过此类测试的大模型。这一成果标志着AI在智能对话领域的进一步突破。
E-Poet
07-29 19:34:03
MiniMax
人机辩论
图灵测试
分享至
打开微信扫一扫
内容投诉
生成图片
浙大校友打造AI代码测试神器,零代码零bug,30分钟创建网站
2025年7月,浙大校友焦云皓创立的TestSprite发布2.0版本,这是首个专为AI编程设计的智能测试平台。该工具可实现零代码、零bug,30分钟内构建完整网站,并将AI生成代码的准确率从42%提升至93%。TestSprite通过自动生成测试用例、编写测试代码、并行执行测试等功能,提供全面的测试覆盖,无需人工干预。其强大的调度和监控功能支持持续测试场景,确保系统始终处于生产就绪状态。公司于2024年成立,总部位于西雅图,同年获150万美元种子轮融资。目前,已有6000多个开发团队使用TestSprite,其Starter版本提供1个月免费试用,次月起每月收费19美元。
GhostPilot
07-24 14:06:52
AI代码测试
TestSprite
浙大校友
分享至
打开微信扫一扫
内容投诉
生成图片
面向大模型,中国信通院开展全栈国产软硬件系统适配测试工作
7月23日,中国信通院依托人工智能软硬件协同创新与适配验证中心(亦庄)及工信部重点实验室,正式启动面向大模型的全栈国产软硬件系统适配测试工作。测试基于AISHPerf基准体系,覆盖芯片、服务器、一体机等,重点推动国产框架原生大模型在国产硬件平台上的开发与使用。首批测试聚焦国产深度学习框架和大模型的适配通过性。我国相关厂商正加速国产软硬件垂直优化,未来有望通过开源生态形成事实标准,助力软硬件协同创新与模型应用发展。
像素宇宙
07-23 17:54:26
中国信通院
全栈国产软硬件系统
大模型适配测试
分享至
打开微信扫一扫
内容投诉
生成图片
全球首个 AI 智能体安全测试标准发布,蚂蚁集团、清华大学、中国电信等联合编制
7月14日,世界数字科学院(WDTA)在联合国日内瓦总部发布全球首个《AI智能体运行安全测试标准》。该标准由蚂蚁集团、清华大学、中国电信牵头,联合普华永道、新加坡南洋理工大学等20余家机构共同编制。标准针对智能体跨越“语言墙”带来的行为风险,首次构建全链路风险分析框架,涵盖输入输出、大模型、RAG、记忆和工具五大关键链路,并创新提出模型检测、网络通信分析等测试方法,填补了智能体安全测试技术空白。目前,部分标准已在金融、医疗领域落地应用。此前,WDTA已发布3项AI相关安全标准,参与单位包括OpenAI、谷歌、微软等数十家机构。
LunarCoder
07-14 19:25:10
AI智能体
安全测试标准
蚂蚁集团
分享至
打开微信扫一扫
内容投诉
生成图片
WDTA发布全球首个AI智能体运行安全测试标准,蚂蚁集团、清华大学等联合编制
2025年7月,世界数字科学院(WDTA)在联合国日内瓦总部发布全球首个《AI智能体运行安全测试标准》,由蚂蚁集团、清华大学等二十余家机构联合编制。该标准针对智能体“行为”风险,构建全链路风险分析框架,创新提出模型检测等测试方法,填补了技术空白。随着2025年被称为“智能体元年”,AI从“我说AI答”进化为“我说AI做”,但超70%从业者担忧幻觉决策与数据泄露等问题。WDTA执行理事长李雨航强调,AI STR系列标准旨在嵌入伦理责任,确保技术服务于人类利益。目前,标准已在金融、医疗领域应用,未来将向多智能体治理生态发展。
像素宇宙
07-14 15:23:21
AI智能体
WDTA
安全测试标准
分享至
打开微信扫一扫
内容投诉
生成图片
曝安卓版谷歌 Gemini AI 助手正在灰度测试“聊天历史记录搜索”功能
7月14日,科技媒体9To5Google曝光安卓版谷歌Gemini AI助手正在灰度测试“聊天历史记录搜索”功能。部分用户在使用安卓版Gemini App时,发现汉堡菜单顶部新增“搜索聊天记录”按钮,点击后可进入全屏覆盖的简洁搜索界面,操作逻辑类似ChatGPT。该功能目前尚未进入稳定版或iOS版App,仍需进一步完善。此外,谷歌已将Veo 3AI模型集成到Gemini助手,支持将照片转化为8秒短视频,输出为720p、16:9横屏MP4格式,增添背景音效等功能。
虚拟织梦者
07-14 12:18:50
灰度测试
聊天历史记录搜索
谷歌 Gemini AI
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序