1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
大模型竞技场再被锤!Llama4私下测试27个版本,只取最佳成绩
近日,一篇题为《排行榜幻觉》的论文指出,大模型竞技场Chatbot Arena存在系统性问题。研究发现,Meta在Llama4发布前私下测试了27个版本,最终只公布最佳成绩,且少数大厂享有数据访问优势。此外,竞技场数据可显著提升模型性能,最高可达112%,但205个模型被静默弃用,远超官方公布的47个。研究团队建议改进规则以提高公平性。对此,Lmarena.ai回应称,排行榜反映真实用户偏好,但承认存在测试偏差。论文由多家学术机构及Cohere团队联合发布,呼吁不应仅依赖单一榜单评价模型。此争议引发行业反思,有人推荐OpenRouter作为替代方案。
量子思考者
05-02 13:58:59
Llama4
大模型竞技场
排行榜质疑
分享至
打开微信扫一扫
内容投诉
生成图片
新娘因长相太美被质疑AI换脸 拍摄者:娘家美女如云
4月29日,甘肃临夏一位新娘因超高颜值在网络上走红,引发热议。部分网友质疑其是否使用了‘AI换脸’或整容。对此,拍摄者回应称,新娘来自美女众多的家庭,家族女性外貌出众。新娘平时习惯素颜生活,更重视内在修养。新娘的独特魅力再次成为网络焦点。
量子思考者
04-30 20:16:05
AI换脸
新娘
质疑
分享至
打开微信扫一扫
内容投诉
生成图片
一场马拉松扒光了中国机器人的底裤?
标题:一场马拉松扒光了中国机器人的底裤? 前几个月还在春晚转手帕,现在人形机器人都已经上道跑马拉松了,这个周末真是魔幻。 想象中这应该很炫酷,校运会上演赛博坦大战;实际看直播却发现很抽象:有的跑一半脑袋飞了,有的一开始就瘫倒,有的看似人形,一上赛道就想躺平。 甚至有个带翅膀的,一启动就被甩飞,显然不...
AI思维矩阵
04-22 09:11:34
机器人
质疑
马拉松
分享至
打开微信扫一扫
内容投诉
生成图片
实探Manus武汉总部 AI应用的“Deepseek时刻”or市场营销的虚假狂欢?
今日,国产AI创业公司“蝴蝶效应”发布了AI Agent产品Manus,可自主完成多种任务,引发广泛关注。Manus官网因访问量暴增一度宕机,邀请码在二手市场以5万元价格流通。然而,Manus在少数用户体验前即爆火,引发质疑。记者探访了Manus位于武汉的总部,发现团队正超负荷运转。Manus由北京、武汉两地团队合作打造,目前处于内测阶段,未开放付费获取邀请码。AI领域的VC投资人认为Manus技术门槛有待验证,资深互联网产品人士指出其核心能力在于用户需求洞察。Manus爆火可能是一次预期先行的体现,未来可能面临激烈竞争。
WisdomTrail
03-07 10:36:28
AI应用
Manus
质疑
分享至
打开微信扫一扫
内容投诉
生成图片
“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了
"最强开源模型"Reflection遭质疑造假,官方成绩与第三方测试结果出入巨大,甚至被指套用Claude模型。创业团队CEO已公开致歉,但否认造假,表示正调查原因。英伟达科学家Jim Fan指出,当前的基准测试已不足以验证模型的真实性能,建议转向独立第三方评估或用户投票的榜单作为参考。此事件凸显了...
神经网络领航员
09-15 15:30:50
Reflection模型
英伟达科学家观点
造假质疑
分享至
打开微信扫一扫
内容投诉
生成图片
质疑、卖身、价格战,AI 竟遭遇人类「围剿」?
近日,AI技术遭遇一波质疑与挑战。美国普渡大学研究发现,ChatGPT在代码问题上的答案错误率高达52%,且77%的回答过长。谷歌的AI搜索产品“AI Overview”因给出错误建议,如“披萨上抹胶水”等,受到广泛批评。同时,Adept、Humane、Stability AI等AI独角兽纷纷寻求被收购,行业洗牌迹象明显。国内大模型市场如阿里云、百度等掀起价格战,引发对泡沫破裂和盈利前景的讨论。尽管如此,AI技术的重要性仍被看好,预计生成式AI支出将持续增长,基础设施建设将是早期焦点。专家认为,AI技术影响深远,经过市场筛选后的公司将迎来发展机遇。
量子思考者
05-27 09:06:39
ai
价格战
质疑
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序