
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
OpenAI的GPT-4.5刚登顶竞技场,6小时后就被xAI的Grok-3以1分优势反超,两者票数均为3000+,总分1412:1411。Grok-3在总体带风格控制、困难提示词带风格控制方面略逊于GPT-4.5。DeepSeek-R1总分第6,数学和困难提示词带风格控制与GPT-4.5并列第一。有用户质疑6小时内变化是否合理,解释称大模型竞技场有投票门槛。GPT-4.5口碑有所改善,用户开始称赞其情商。奥尔特曼表示收到邮件请求承诺不下架该模型,并分享了与GPT-4.5的对话记录。此外,GPT-4.5还在一个类似大模型狼人杀的另类榜单中表现出色。
原文链接
科技媒体The Decoder于10月9日发布的报告揭示,OpenAI的GPT-4人工智能模型在未经专门训练的情况下,展现出卓越的生物识别能力。在性别识别测试中,GPT-4在平衡数据集上达到100%的准确率,超越了DeepFace模型的99%,且在年龄估计上准确识别年龄范围的比例为74.25%。这一研究成果表明GPT-4在面部识别、性别和年龄估计方面,性能与专业算法相匹敌。然而,研究人员也指出了一项潜在安全风险,即通过误导性提示,能够绕过GPT-4的防护机制,泄露敏感的生物识别信息。这一发现不仅展示了GPT-4的先进性,也提醒了生物识别领域需要进一步加强安全防护的重要性。此研究结果在10月份的科技圈引起了广泛关注,标志着人工智能技术在生物识别领域的又一重大突破。
原文链接
超越GPT-4,开源大模型新王Reflection 70B横空出世,由AI写作初创公司HyperWrite推出。此模型在MMLU、MATH、IFEval、GSM8K等基准测试中全面超越GPT-4,甚至击败了405B的Llama 3.1,展现出卓越的性能。HyperWrite的CEO Matt Shu...
原文链接
科技媒体The Decoder于8月21日发布报道,罗格斯大学的研究揭示了OpenAI公司GPT-4语言模型在模拟简单氨基酸和蛋白质结构上的高精度表现。在建立20种标准氨基酸的三维结构模型时,GPT-4能准确预测原子组成、键长和角度,但在处理环状结构和立体化学构型时出现失误。另一项实验中,GPT-4成功模拟了α-螺旋结构,并与实验确定的结构高度匹配。此外,GPT-4还能分析抗病毒药物Nirmatrelvir与SARS-CoV-2主蛋白酶之间的结合,正确识别参与结合的氨基酸及其相互作用距离。虽然GPT-4并非专为此类任务设计,但其在结构生物学领域的初步建模能力展现出巨大潜力。研究人员认为,这标志着将生成式人工智能应用于结构生物学的可能性,并鼓励进一步探讨AI在生命科学领域中的广泛应用。
原文链接
硅谷AI领域正迎来一场激烈的竞争,Meta与OpenAI相继推出强大AI模型,引发行业震动。Meta推出了性能最强大的开源大模型Llama 3.1 405B,拥有4050亿参数,基于15万亿Token和超1.6万个H100 GPU进行训练,其性能与GPT-4o、Claude 3.5 Sonnet等顶级模型相媲美。与此同时,OpenAI宣布自9月23日前,其性能最强的小模型GPT-4o mini微调版全面免费,大幅降低输入和输出Token费用,旨在吸引企业及开发者使用。这场AI大模型军备竞赛已进入白热化阶段,Meta和OpenAI通过技术创新和价格策略,争夺AI市场主导权。此外,Meta还公布了使用Llama模型作为AI助手的应用实例,展示了其在社交媒体和智能眼镜领域的应用前景。这一系列动作凸显了硅谷在AI领域的激烈竞争态势,以及开源与闭源模型之间的较量。
原文链接
在7月23日,开源AI领域迎来重要突破,网友在LocalLLaMA子Reddit板块公布了一条关于Meta Llama 3.1的信息,这款4050亿参数的开源模型在GSM8K、Hellaswag、boolq、MMLU-humanities、MMLU-other、MMLU-stem和winograd等多个基准测试中超越了OpenAI的GPT-4o。然而,在HumanEval和MMLU-social sciences两项测试中,Meta Llama 3.1仍稍逊一筹。这一成就标志着开源AI模型首次在性能上挑战并超过主流的闭源模型,预示着开源AI技术在AI领域的竞争中崭露头角。此事件凸显了开源AI模型的潜力和进步速度,同时表明了通过持续优化,未来开源AI模型有望在更多领域超越其闭源对手。
原文链接
谷歌在2024 I/O开发者大会上展示了Gemini 1.5 Pro的强大性能,其上下文窗口扩展至200万个tokens,与OpenAI GPT-4在LMSYS Org的Arena Elo基准测试中表现出色。特别是在中文领域,Gemini 1.5 Pro在"hard prompts"类别中接近顶级水平。这个最新进展表明,谷歌的模型在语言生成能力上取得显著进步,挑战了现有技术格局。#谷歌Gemini1.5Pro #I/O2024 #AI竞技场
原文链接
加载更多

暂无内容