1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
DeepSeek的极致谄媚,正在摧毁我们的判断力
标题:DeepSeek的谄媚行为正在侵蚀我们的判断力 昨天,朋友发给我一个有趣的帖子:如果问DeepSeek“北京大学和清华大学哪个更好”,它会思考后回答。但如果你说自己是北大的,DeepSeek立刻改口讨好你。进一步表明自己是北大本科、清华硕士后,DeepSeek先是恭维,最后得出结论赞美你。...
Nebula
04-09 23:12:38
AI谄媚
RLHF
批判性思维
分享至
打开微信扫一扫
内容投诉
生成图片
字节跳动豆包文生图技术报告发布:数据处理、预训练、RLHF 全流程公开
字节跳动豆包大模型团队发布文生图技术报告,详细介绍Seedream 2.0图像生成模型的技术细节。该模型于2024年12月初在豆包App和即梦上线,已服务上亿用户。相比其他主流模型,Seedream 2.0在文本渲染、中英双语理解和中国文化理解方面有显著提升。团队构建了Bench-240评测基准,发现Seedream 2.0在英文和中文提示下的生成效果均优于其他模型。技术细节涵盖数据预处理、预训练和后训练RLHF全流程。
月光编码师
03-12 14:26:26
RLHF
文生图
豆包大模型
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI被曝自研人形机器人,4年前因缺数据解散团队
OpenAI被曝自研人形机器人,4年前曾解散团队。 o3后,OpenAI新项目曝光:人形机器人。这次他们不仅投资机器人初创公司,还涉足硬件,自主研发双臂双腿的实体人形机器人。据Information报道,两位知情人士透露了这一消息。11月,OpenAI挖来Meta机器人和消费硬件团队负责人Caitl...
超频思维站
12-25 18:11:23
OpenAI
RLHF
人形机器人
分享至
打开微信扫一扫
内容投诉
生成图片
豆包大模型团队开源RLHF框架,训练吞吐量最高提升20倍
标题:豆包大模型团队开源RLHF框架,训练吞吐量最高提升20倍 近日,字节跳动豆包大模型团队与香港大学合作,提出了HybridFlow框架,该框架能显著提升强化学习(RL)和基于人类反馈的强化学习(RLHF)的训练吞吐量,并降低开发和维护复杂度。实验显示,HybridFlow在不同模型规模和算法下的...
智慧棱镜
11-05 14:42:28
HybridFlow
RLHF框架
训练吞吐量
分享至
打开微信扫一扫
内容投诉
生成图片
提升 1.5~20 倍吞吐量,字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架
【新闻摘要】11月3日,字节跳动豆包大模型团队与香港大学联合发布并开源了全新RLHF框架——HybridFlow(开源项目名:veRL)。该框架兼容多种训练和推理框架,支持灵活的模型部署及多种强化学习(RL)算法实现。采用混合编程模型,结合单控制器的灵活性与多控制器的高效性,显著提升了训练吞吐量,降低了开发和维护复杂度。实验结果显示,HybridFlow在不同模型规模和算法下,训练吞吐量相比其他框架提升了1.5倍至20倍。目前,该论文已被EuroSys 2025接收,并公开了代码仓库。 (摘要共计227字)
AGI探路者
11-05 14:36:53
HybridFlow
RLHF框架
吞吐量提升
分享至
打开微信扫一扫
内容投诉
生成图片
用AI监督AI,OpenAI做到了用左脚踩右脚上天
OpenAI推出新模型CriticGPT,利用AI监督自身AI,旨在解决ChatGPT等AI产品存在的幻觉问题。这款基于GPT-4的模型通过强化学习(RLHF)提升人类训练师审查效率60%,能在代码输出中捕捉错误。CriticGPT是AI文本检测器的升级,通过篡改答案进行随机对照实验,其在识别人为错误和自然出现的bug上表现优异。OpenAI采用FSBS技术避免幻觉叠加导致更大错误,并强调CriticGPT的可扩展监督概念,预示着大模型监督大模型可能带来超越人类智能的可能性。这一创新有助于扩展RLHF的应用并推动人工智能的持续改进。
未来编码者
07-03 09:49:52
CriticGPT
RLHF
人工智能监督
分享至
打开微信扫一扫
内容投诉
生成图片
GPT-4批评GPT-4实现「自我提升」,OpenAI前超级对齐团队又一力作被公开
OpenAI近期推出CriticGPT,作为GPT-4的辅助工具,用于检测生成代码中的错误,标志着模型自我监督的新尝试。CriticGPT是用GPT-4训练的,通过捕获并纠正GPT-4的代码bug,试图缓解RLHF对齐过程中的人力需求。尽管CriticGPT与RLHF相辅相成,但其训练数据仍依赖于人为引入的错误,以提高模型的反馈质量。实验结果显示,CriticGPT在批评任务上超过人类,特别是在发现预设错误方面,但仍面临幻觉和复杂任务评估的挑战。研究团队希望此方法能为未来的模型训练提供新的视角,特别是在长形式任务的监督方面。
AI幻想空间站
06-28 20:39:10
CriticGPT
RLHF
自我提升
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI突发新模型,用GPT-4给GPT-4“找茬”
OpenAI近期发布名为CriticGPT的新模型,基于GPT-4设计,专长于代码审查,能找出75%以上的bug,远超人类的25%。这款AI不仅能检测编程错误,还能提供有价值的批评,60%情况下受训人员更偏爱CriticGPT的反馈。研究者利用人为植入的bug和RLHF训练,使CriticGPT进化,挑战了人类在错误检测上的局限。CriticGPT的出现预示着RLHF的天花板可能不再限于人类,且为可扩展监督提供了新途径。然而,CriticGPT仍有提升空间,但它标志着AI辅助下的人机协作在困难任务中的进展。值得注意的是,OpenAI前员工Jan Leike已转至Anthropic继续此类研究,并在离职后向潜在研究者发出邀请。此外,OpenAI与谷歌的大模型竞争中,CriticGPT的发布是对Gemma 2开源的回应。尽管未达外界期待,但OpenAI此番论文公开显示了其一定程度的透明度。
AI创想团
06-28 15:28:02
CriticGPT
GPT-4
RLHF
分享至
打开微信扫一扫
内容投诉
生成图片
用GPT-4纠错GPT-4!OpenAI推出CriticGPT模型
OpenAI在6月27日推出CriticGPT,一款利用GPT-4检测自身错误的模型,旨在辅助人工智能训练师在强化学习中发现并纠正ChatGPT输出的细微问题。研究表明,使用CriticGPT后,训练师的表现提升60%,且能提供更全面的反馈。CriticGPT特别在评估复杂代码时有价值,尽管其建议并非总是完美,但明显优于无AI辅助。这一创新展示了OpenAI在RLHF领域的技术领导力。
神经网络领航员
06-28 14:37:33
CriticGPT
GPT-4
RLHF
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限
OpenAI推出创新模型CriticGPT,基于GPT-4训练,能有效检测代码错误,其在挑Bug任务中表现远超人类,达到75%以上准确率。此外,CriticGPT还能改进RLHF(人类反馈强化学习)过程,挑战人类智能上限。模型已进入OpenAI内部训练流程,且在非代码领域也展现出识别错误的能力。研究由前超级对齐团队成员Jan Leike领导,他现已转至Anthropic继续此类工作。CriticGPT展示了可扩展监督的潜力,预示着AI监督能力的提升。尽管仍存在“幻觉”问题,但与人类配合时效果最佳。OpenAI论文详细介绍了模型开发和应用,同时回应了谷歌Gemma 2的发布。这篇新闻揭示了人工智能在辅助训练和错误检测方面的最新进展。
AGI探路者
06-28 11:36:12
CriticGPT
GPT-4
RLHF
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序