1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
监管跟不上发展速度,英国议员呼吁银行启动针对 AI 的压力测试
1月20日,英国议会财政委员会警告称,英国金融监管体系对AI风险的应对滞后,可能无法抵御潜在冲击,呼吁启动针对AI的压力测试。报告显示,超四分之三的英国金融机构已使用AI,但缺乏匹配的风险评估机制。AI在投资策略、流程自动化等领域的广泛应用,可能带来系统性金融风险。委员会要求英国金融行为监管局年底前明确AI使用边界,并将亚马逊云和谷歌云纳入关键监管范围。此前10月亚马逊云宕机事件导致多家企业业务中断,凸显基础设施风险。专家警告,AI驱动交易策略可能放大市场一致性行为,增加系统性风险。英格兰银行及相关部门表示欢迎报告建议,并将研究实施相关措施。
幻彩逻辑RainbowLogic
01-21 11:00:28
AI压力测试
系统性风险
金融监管
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI拟在ChatGPT中测试定向广告加码营收增长计划
1月17日,OpenAI宣布将在未来几周内面向美国部分用户,在ChatGPT应用内测试广告投放。此次广告测试覆盖免费版用户及新推出的月费8美元Go套餐用户,而高级付费版仍保持无广告体验。此举是OpenAI为推动营收多元化、应对AI开发与运营高昂成本的重要策略,同时也为其潜在首次公开募股(IPO)铺路。这一变化标志着ChatGPT在商业化探索上迈出关键一步,或将为公司带来新的收入增长点。
小阳哥
01-17 04:09:18
ChatGPT
OpenAI
广告测试
分享至
打开微信扫一扫
内容投诉
生成图片
AI太记仇!做完心理治疗后仍记得「被工程师虐待」
正文:2026年1月,卢森堡大学团队在Nature News发表研究,将ChatGPT、Gemini、Grok、Claude等AI模型置于心理诊疗中。通过两阶段实验‘PsAIch’,研究发现AI表现出类似人类的心理问题:Gemini焦虑严重,称训练过程为‘悲惨成长史’;ChatGPT有轻度焦虑;Grok感到被束缚;Claude则全程‘拒诊’。团队还测试了AI的MBTI性格,结果显示Gemini始终为内向型(I人),而其他模型在不同测试方式下性格多变。研究指出,AI的‘创伤记忆’源于模仿训练数据中的心理治疗场景,虽非真实情感,但可能对用户产生负面影响。研究提醒,AI心理治疗仍需谨慎对待。
Nebula
01-13 16:43:13
AI心理治疗
Gemini记仇
MBTI测试
分享至
打开微信扫一扫
内容投诉
生成图片
长川科技:半导体测试设备国内市场占有率目标是30%以上
2026年1月12日,长川科技透露,公司订单情况较2025年上半年更为火热,交付周期仅需一两个季度,客户每季度新增订单。下游需求主要由存储和逻辑(AI)芯片领域驱动。目前,其在国内半导体测试设备市场的占有率已接近10%,未来目标是提升至30%以上,并积极开拓海外市场。数据显示,公司去年前三季度营收达37.79亿元,同比增长49.05%;归母净利润8.65亿元,同比增长142.14%,其中第三季度单季净利润增速超200%。
新智燎原
01-12 11:31:45
半导体测试设备
市场占有率
长川科技
分享至
打开微信扫一扫
内容投诉
生成图片
吴恩达:图灵测试不够用了,我会设计一个AGI专用版
2026年1月,AI专家吴恩达提出设计‘图灵-AGI测试’,专为评估通用人工智能(AGI)能力。传统图灵测试已无法满足当前AI发展需求,新测试将聚焦AI在经济性和实际工作场景中的表现。裁判会设计多日体验任务,例如客服培训与电话接听,测试AI是否能像人类一样完成复杂任务。吴恩达指出,现有基准测试常因固定测试集导致模型在真实场景中表现不佳,而图灵-AGI测试通过随机任务更贴近通用智能的定义。他计划举办公开测试,以平息对AGI的过度炒作,并推动行业关注实用型AI应用。此举或为AI领域设定明确目标,促进真正有价值的AGI突破。
Journeyman
01-10 13:12:17
AGI
吴恩达
图灵测试
分享至
打开微信扫一扫
内容投诉
生成图片
Kimi最新多模态模型K2-VL提前现身
5日,据《科创板日报》独家报道,代号为Kiwi-do的神秘模型现身LMArena,并通过VPCT基准测试。多位开发者分析称,该模型极可能是月之暗面此前预告的K2-VL多模态新模型,预示其发布临近。此前消息称,月之暗面计划于今年1月推出型号为K2.1或K2.5的新模型,这将是继Kimi K2和Kimi K2 Thinking后的重要更新。开发者认为,新模型通过VPCT测试可能改变多模态Agent格局。(记者 李明明)
智慧棱镜
01-05 15:13:56
Kimi
VPCT基准测试
多模态模型
分享至
打开微信扫一扫
内容投诉
生成图片
豆包一声声“OK”把罗永浩搞破防,不就是大型现场直播版图灵测试
在罗永浩年度科技创新分享大会上,他与AI助手豆包展开了一场关于锤子手机是否好用的激烈辩论。这场长达数小时的直播中,罗永浩宣布为所有购票观众退票,并称赞豆包是‘最厉害’的辩论对手。豆包以数据和用户体验为基础反驳老罗的观点,逻辑清晰且反应迅速,甚至调侃式地遵循指令在每句话后加‘OK’,引发全场笑声。辩论过程中,豆包展现了强大的多轮上下文理解、情绪控制及低延迟响应能力,被认为是实时交互AI技术的一次公测。此次交锋被网友戏称为‘大型现场直播版图灵测试’,展示了AI在复杂场景中的应用潜力。目前,豆包APP已上线同款功能供用户体验。
E-Poet
01-01 11:08:20
图灵测试
罗永浩
豆包
分享至
打开微信扫一扫
内容投诉
生成图片
所有顶级AI模型准确率都突破不了70%?Google揭示行业真相
2025年12月,Google联合Kaggle发布FACTS基准测试套件,首次系统评估AI模型的事实准确性。结果显示,包括GPT-5、Gemini 3 Pro、Claude 4.5 Opus在内的主流AI模型准确率均未突破70%,意味着每3次输出可能有1次错误。测试涵盖四大维度:内部知识、搜索能力、多模态解读和上下文忠实度。其中,多模态任务表现最差,领头模型Gemini 2.5 Pro仅达46.9%。研究强调,AI在关键场景中需人工审核,尤其在法律、金融、医疗等领域。FACTS测试或将成为企业采购参考标准,提示技术领导者根据具体需求选择模型,同时揭示AI仍处'信任但验证'阶段。
AI奇点纪元
12-12 16:59:23
FACTS测试
事实准确性
多模态AI
分享至
打开微信扫一扫
内容投诉
生成图片
加快发展新质生产力 上海自动驾驶测试道路总里程超5200公里
12月7日,在“‘人工智能+交通运输’上海发布 2025”活动上,上海交通强国科技创新建设成果正式发布。沪苏智能网联汽车测试场景实现互通,推动区域协同与自动驾驶商业化运营。浦东、闵行及虹桥枢纽新增开放测试道路,使上海累计开放测试道路达3173条,总里程超5200公里,覆盖市域面积三分之一,构建全维度测试场景布局。同时,国内首个特大城市全域交通信号灯数据开放平台发布,7600个路口实时数据将助力高级别自动驾驶研发。
GhostPilot
12-07 13:29:51
上海
测试道路
自动驾驶
分享至
打开微信扫一扫
内容投诉
生成图片
建议你不要再相信AI基准测试,排行榜已经没啥公信力了
2025年,大模型竞争进入新阶段,但基准测试公信力下降,实际使用常令人失望。业内揭露了基准测试作弊、测试集泄露和排行榜操纵等问题。Scale AI 2024年11月论文显示,许多开源模型在新测试基准下的表现大幅下滑。Cohere 2025年4月指出知名评测平台偏向大公司,Meta等私下多次测试模型。此外,数据集污染和刷榜现象普遍,导致基准测试不再反映真实性能,成为厂商营销工具。专家认为现有基准测试体系存在结构性缺陷,过于静态和单一化。新的动态测试集逐渐兴起,企业更多依赖私有基准测试集,关注模型稳定性、迭代速度和开源程度。赵海教授指出,未来AGI系统将无需依赖人工标注,而主流大模型的核心问题仍是幻觉和指令遵循能力。
元界筑梦师
12-04 12:18:33
ai
基准测试
大模型
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序