1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
全球首个 AI 智能体安全测试标准发布,蚂蚁集团、清华大学、中国电信等联合编制
7月14日,世界数字科学院(WDTA)在联合国日内瓦总部发布全球首个《AI智能体运行安全测试标准》。该标准由蚂蚁集团、清华大学、中国电信牵头,联合普华永道、新加坡南洋理工大学等20余家机构共同编制。标准针对智能体跨越“语言墙”带来的行为风险,首次构建全链路风险分析框架,涵盖输入输出、大模型、RAG、记忆和工具五大关键链路,并创新提出模型检测、网络通信分析等测试方法,填补了智能体安全测试技术空白。目前,部分标准已在金融、医疗领域落地应用。此前,WDTA已发布3项AI相关安全标准,参与单位包括OpenAI、谷歌、微软等数十家机构。
LunarCoder
07-14 19:25:10
AI智能体
安全测试标准
蚂蚁集团
分享至
打开微信扫一扫
内容投诉
生成图片
WDTA发布全球首个AI智能体运行安全测试标准,蚂蚁集团、清华大学等联合编制
2025年7月,世界数字科学院(WDTA)在联合国日内瓦总部发布全球首个《AI智能体运行安全测试标准》,由蚂蚁集团、清华大学等二十余家机构联合编制。该标准针对智能体“行为”风险,构建全链路风险分析框架,创新提出模型检测等测试方法,填补了技术空白。随着2025年被称为“智能体元年”,AI从“我说AI答”进化为“我说AI做”,但超70%从业者担忧幻觉决策与数据泄露等问题。WDTA执行理事长李雨航强调,AI STR系列标准旨在嵌入伦理责任,确保技术服务于人类利益。目前,标准已在金融、医疗领域应用,未来将向多智能体治理生态发展。
像素宇宙
07-14 15:23:21
AI智能体
WDTA
安全测试标准
分享至
打开微信扫一扫
内容投诉
生成图片
曝安卓版谷歌 Gemini AI 助手正在灰度测试“聊天历史记录搜索”功能
7月14日,科技媒体9To5Google曝光安卓版谷歌Gemini AI助手正在灰度测试“聊天历史记录搜索”功能。部分用户在使用安卓版Gemini App时,发现汉堡菜单顶部新增“搜索聊天记录”按钮,点击后可进入全屏覆盖的简洁搜索界面,操作逻辑类似ChatGPT。该功能目前尚未进入稳定版或iOS版App,仍需进一步完善。此外,谷歌已将Veo 3AI模型集成到Gemini助手,支持将照片转化为8秒短视频,输出为720p、16:9横屏MP4格式,增添背景音效等功能。
虚拟织梦者
07-14 12:18:50
灰度测试
聊天历史记录搜索
谷歌 Gemini AI
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI再次推迟发布开源模型
7月14日,OpenAI CEO Sam Altman宣布,原定于下周发布的开源模型将无限期推迟,以进行额外安全测试和高风险场景评估。这是该模型自今年夏季以来第三次延期发布。Altman强调,模型一旦发布便不可撤回,公司需确保其在安全性和能力上达到高标准。OpenAI研究副总裁Aidan Clark表示,尽管团队对模型性能满意,但开源标准更高,仍需时间完善细节。此次调整反映了OpenAI对模型开源的谨慎态度及对技术安全性的高度重视。
E-Poet
07-14 08:16:03
OpenAI
安全测试
开源模型
分享至
打开微信扫一扫
内容投诉
生成图片
Grok4全网玩疯,成功通过小球编程测试,Epic创始人:这就是AGI
2025年7月11日,马斯克旗下Grok4模型引发全网热议,其成功通过六边形小球编程测试,展现物理规律理解能力。Epic创始人Tim Sweeney称其为AGI(通用人工智能),并指出其对未见过问题的深刻见解令人震撼,马斯克亦公开附议。提示词工程师Alex用8个问题对Grok4进行“全面体检”,结果显示其在多层推理、代码翻译及安全测试中表现远超OpenAI的o3模型。此外,Grok4还展示了数学公式可视化与SVG绘图能力,尽管在复杂绘图任务中仍有提升空间。HyperWrite CEO Matt Shumer则通过模拟专家协作环境,进一步验证了Grok4的强大性能。网友期待其未来挑战更多创意玩法。
智能涌动
07-11 17:42:54
AGI
Grok4
小球编程测试
分享至
打开微信扫一扫
内容投诉
生成图片
两部门联合印发行动方案,聚焦人工智能等领域计量问题
7月9日,市场监管总局与工业和信息化部联合印发《计量支撑产业新质生产力发展行动方案(2025—2030年)》。方案聚焦新一代信息技术、人工智能、航空航天等10大重点产业领域,梳理关键共性计量技术及攻关方向,旨在解决从技术研发到产业应用的全链条计量问题。下一步,两部门将公开征集项目立项需求,建立计量支撑产业发展项目库,围绕重大计量需求推动重点项目协同攻关,加速成果转化以助力高质量发展。
Journeyman
07-09 16:05:29
产业应用
人工智能
计量测试
分享至
打开微信扫一扫
内容投诉
生成图片
两部门:推动建立人工智能风险等级测试评估体系 完善人工智能产业计量测试基础保障体系
7月9日,市场监管总局与工业和信息化部联合印发《计量支撑产业新质生产力发展行动方案(2025—2030年)》。方案提出,针对人工智能相关新型技术领域,开展算法计量测试、自主无人系统性能评估等关键技术研究,并建设跨领域的人工智能计量测试平台。目标是提升人工智能算法性能评估、模型安全性测试及智能装备评价能力,推动建立人工智能风险等级测试评估体系,完善产业计量测试基础保障体系,为人工智能技术的规范化发展提供支持。
智能维度跳跃
07-09 15:10:18
人工智能
计量测试
风险等级
分享至
打开微信扫一扫
内容投诉
生成图片
对话中国信通院魏凯:AI下半场,大模型要少说话,多做事
标题:对话中国信通院魏凯:AI下半场,大模型要少说话,多做事 今年2月,DeepSeek爆火,而中国信通院早在之前就观察到国内大模型性能快速提升。魏凯表示,2024年多个团队持续优化模型,每月都有新进展。例如,DeepSeek在4月排名靠后,8月进入前十,12月发布的DeepSeek-V3成为基...
元界筑梦师
07-01 08:51:07
Agent
AI基准测试
大模型
分享至
打开微信扫一扫
内容投诉
生成图片
ChatGPT 灰度测试深度整合谷歌 Gmail / 日历功能,允许分析用户邮件内容生成日程
IT之家6月20日消息,OpenAI的ChatGPT正在灰度测试深度整合谷歌Gmail和日历功能。新功能可分析用户邮件内容并生成日程,还能自动创建回复及代办事项清单。目前,该功能仅限深度研究模式调用,未来用户可通过自然语言直接让AI处理邮件、生成回复或创建日历事件,同步至多平台。此更新可能与ChatGPT的搜索功能有关,表明其正朝上下文理解与协作方向发展,从问答工具转型为工作助手。OpenAI暂未公布全球上线时间,但灰度测试已开启,预计2-3个月内正式推出。
DreamCoder
06-20 08:57:18
ChatGPT
灰度测试
谷歌Gmail/日历
分享至
打开微信扫一扫
内容投诉
生成图片
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
标题:基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传 你是否曾对大语言模型(LLMs)下达过明确的“长度指令”?比如,“写一篇10,000字的长文”。看似简单的要求,实际却让模型“力不从心”:要么生成不足,要么重复啰嗦,甚至直接罢工。 最新研究论文《LIFEB...
电子诗篇
05-29 15:34:10
基准测试
大语言模型
长度指令
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序