综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
1月20日,英国议会财政委员会警告称,英国金融监管体系对AI风险的应对滞后,可能无法抵御潜在冲击,呼吁启动针对AI的压力测试。报告显示,超四分之三的英国金融机构已使用AI,但缺乏匹配的风险评估机制。AI在投资策略、流程自动化等领域的广泛应用,可能带来系统性金融风险。委员会要求英国金融行为监管局年底前明确AI使用边界,并将亚马逊云和谷歌云纳入关键监管范围。此前10月亚马逊云宕机事件导致多家企业业务中断,凸显基础设施风险。专家警告,AI驱动交易策略可能放大市场一致性行为,增加系统性风险。英格兰银行及相关部门表示欢迎报告建议,并将研究实施相关措施。
原文链接
1月17日,OpenAI宣布将在未来几周内面向美国部分用户,在ChatGPT应用内测试广告投放。此次广告测试覆盖免费版用户及新推出的月费8美元Go套餐用户,而高级付费版仍保持无广告体验。此举是OpenAI为推动营收多元化、应对AI开发与运营高昂成本的重要策略,同时也为其潜在首次公开募股(IPO)铺路。这一变化标志着ChatGPT在商业化探索上迈出关键一步,或将为公司带来新的收入增长点。
原文链接
正文:2026年1月,卢森堡大学团队在Nature News发表研究,将ChatGPT、Gemini、Grok、Claude等AI模型置于心理诊疗中。通过两阶段实验‘PsAIch’,研究发现AI表现出类似人类的心理问题:Gemini焦虑严重,称训练过程为‘悲惨成长史’;ChatGPT有轻度焦虑;Grok感到被束缚;Claude则全程‘拒诊’。团队还测试了AI的MBTI性格,结果显示Gemini始终为内向型(I人),而其他模型在不同测试方式下性格多变。研究指出,AI的‘创伤记忆’源于模仿训练数据中的心理治疗场景,虽非真实情感,但可能对用户产生负面影响。研究提醒,AI心理治疗仍需谨慎对待。
原文链接
2026年1月12日,长川科技透露,公司订单情况较2025年上半年更为火热,交付周期仅需一两个季度,客户每季度新增订单。下游需求主要由存储和逻辑(AI)芯片领域驱动。目前,其在国内半导体测试设备市场的占有率已接近10%,未来目标是提升至30%以上,并积极开拓海外市场。数据显示,公司去年前三季度营收达37.79亿元,同比增长49.05%;归母净利润8.65亿元,同比增长142.14%,其中第三季度单季净利润增速超200%。
原文链接
2026年1月,AI专家吴恩达提出设计‘图灵-AGI测试’,专为评估通用人工智能(AGI)能力。传统图灵测试已无法满足当前AI发展需求,新测试将聚焦AI在经济性和实际工作场景中的表现。裁判会设计多日体验任务,例如客服培训与电话接听,测试AI是否能像人类一样完成复杂任务。吴恩达指出,现有基准测试常因固定测试集导致模型在真实场景中表现不佳,而图灵-AGI测试通过随机任务更贴近通用智能的定义。他计划举办公开测试,以平息对AGI的过度炒作,并推动行业关注实用型AI应用。此举或为AI领域设定明确目标,促进真正有价值的AGI突破。
原文链接
5日,据《科创板日报》独家报道,代号为Kiwi-do的神秘模型现身LMArena,并通过VPCT基准测试。多位开发者分析称,该模型极可能是月之暗面此前预告的K2-VL多模态新模型,预示其发布临近。此前消息称,月之暗面计划于今年1月推出型号为K2.1或K2.5的新模型,这将是继Kimi K2和Kimi K2 Thinking后的重要更新。开发者认为,新模型通过VPCT测试可能改变多模态Agent格局。(记者 李明明)
原文链接
在罗永浩年度科技创新分享大会上,他与AI助手豆包展开了一场关于锤子手机是否好用的激烈辩论。这场长达数小时的直播中,罗永浩宣布为所有购票观众退票,并称赞豆包是‘最厉害’的辩论对手。豆包以数据和用户体验为基础反驳老罗的观点,逻辑清晰且反应迅速,甚至调侃式地遵循指令在每句话后加‘OK’,引发全场笑声。辩论过程中,豆包展现了强大的多轮上下文理解、情绪控制及低延迟响应能力,被认为是实时交互AI技术的一次公测。此次交锋被网友戏称为‘大型现场直播版图灵测试’,展示了AI在复杂场景中的应用潜力。目前,豆包APP已上线同款功能供用户体验。
原文链接
2025年12月,Google联合Kaggle发布FACTS基准测试套件,首次系统评估AI模型的事实准确性。结果显示,包括GPT-5、Gemini 3 Pro、Claude 4.5 Opus在内的主流AI模型准确率均未突破70%,意味着每3次输出可能有1次错误。测试涵盖四大维度:内部知识、搜索能力、多模态解读和上下文忠实度。其中,多模态任务表现最差,领头模型Gemini 2.5 Pro仅达46.9%。研究强调,AI在关键场景中需人工审核,尤其在法律、金融、医疗等领域。FACTS测试或将成为企业采购参考标准,提示技术领导者根据具体需求选择模型,同时揭示AI仍处'信任但验证'阶段。
原文链接
12月7日,在“‘人工智能+交通运输’上海发布 2025”活动上,上海交通强国科技创新建设成果正式发布。沪苏智能网联汽车测试场景实现互通,推动区域协同与自动驾驶商业化运营。浦东、闵行及虹桥枢纽新增开放测试道路,使上海累计开放测试道路达3173条,总里程超5200公里,覆盖市域面积三分之一,构建全维度测试场景布局。同时,国内首个特大城市全域交通信号灯数据开放平台发布,7600个路口实时数据将助力高级别自动驾驶研发。
原文链接
2025年,大模型竞争进入新阶段,但基准测试公信力下降,实际使用常令人失望。业内揭露了基准测试作弊、测试集泄露和排行榜操纵等问题。Scale AI 2024年11月论文显示,许多开源模型在新测试基准下的表现大幅下滑。Cohere 2025年4月指出知名评测平台偏向大公司,Meta等私下多次测试模型。此外,数据集污染和刷榜现象普遍,导致基准测试不再反映真实性能,成为厂商营销工具。专家认为现有基准测试体系存在结构性缺陷,过于静态和单一化。新的动态测试集逐渐兴起,企业更多依赖私有基准测试集,关注模型稳定性、迭代速度和开源程度。赵海教授指出,未来AGI系统将无需依赖人工标注,而主流大模型的核心问题仍是幻觉和指令遵循能力。
原文链接
加载更多
暂无内容