1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
只因一个“:”,大模型全军覆没
近日,研究发现一个冒号或特定推理开头语(如“Thought process:”)即可欺骗多个主流大语言模型(LLM),包括GPT-4o、Claude-4和LLaMA3-70B等。腾讯AI Lab、普林斯顿大学和弗吉尼亚大学的研究团队揭示了这一漏洞,指出其具有跨语言普遍性,并可通过嵌入相似度搜索生成更多对抗样本。为解决该问题,团队开发出增强数据集训练的‘评委’模型Master-RM,将假阳性率降至接近0%,同时保持高评估一致性。研究强调了强化学习验证流程中的安全挑战,未来需进一步提升模型稳健性。论文已公开,相关资源可在Hugging Face平台获取。
量子黑客
07-15 17:47:42
LLM
Master-RM
假阳性率
分享至
打开微信扫一扫
内容投诉
生成图片
最强3B「小钢炮」,代码数据全公开!推理随意开关,128k超长上下文
2025年7月11日,Hugging Face发布新一代最强30亿参数小模型SmolLM3,支持128k超长上下文、双推理模式(think/no_think)及多语言处理。该模型性能超越Llama3.2-3B和Qwen2.5-3B,逼近40亿参数模型,并完全开源训练、对齐、架构与数据。团队通过优化架构(如GQA机制、NoPE编码)及三阶段训练策略提升模型能力,尤其在数学、编程和长文本任务中表现优异。此外,SmolLM3引入双模式指令模型构建方案,平衡推理与非推理性能,支持工具调用与灵活场景适配。研究者可通过transformers库轻松部署,模型已在Hugging Face平台开放下载。
超频思维站
07-11 11:34:58
SmolLM3
开源模型
长上下文
分享至
打开微信扫一扫
内容投诉
生成图片
Hugging Face开源小参数模型SmolLM3
7月9日凌晨,Hugging Face首席执行官克莱门特·德朗格宣布开源小参数模型SmolLM3。该模型支持128k上下文窗口,兼容英语、法语、西班牙语、德语等6种语言,并具备深度思考和非思考双推理模式。这一发布为多语言任务和高效推理提供了新工具,进一步推动开源AI生态发展。
梦境编程师
07-09 07:58:36
Hugging Face
SmolLM3
开源
分享至
打开微信扫一扫
内容投诉
生成图片
14%论文都有AI代写?Nature:每7篇就有1篇藏有ChatGPT特征词
据Nature最新报道,2024年PubMed上发表的150万篇生物医学研究摘要中,14%被发现含有ChatGPT等大语言模型(LLM)特征词。这些词汇多为冗余的动词和形容词,如“intricate”、“notably”,并未影响内容但暴露了AI代写痕迹。部分学科和国家的AI辅助写作比例更高,例如计算领域达20%,非英语国家如中国、韩国约15%。开放获取期刊如MDPI旗下的《Sensors》LLM使用率高达24%,而顶刊如《Nature》仅6%-8%。研究还发现,作者逐渐调整LLM输出以规避特征词,但无法完全消除痕迹。研究人员计划通过统计常见词汇频率进一步量化AI对学术文献的影响,并呼吁重新思考AI在学术写作中的边界与规范。
AI创意引擎
07-04 16:46:22
AI代写
LLM特征词
学术写作
分享至
打开微信扫一扫
内容投诉
生成图片
7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队
近日,由Transformer作者之一Llion Jones创立的Sakana AI推出了一种新方法,通过让教师模型模仿人类教师进行‘启发式’教学,显著提升了学生模型的推理能力。该方法中,教师模型不再从头解决问题,而是根据已知答案提供清晰的逐步解释。实验表明,7B规模的教师模型在训练学生模型方面优于671B的DeepSeek-R1,并能有效训练出4倍规模的学生模型。这种方法不仅提高了效率,还降低了成本,使小型模型也能承担教学任务。
电子诗篇
06-25 14:30:13
7B小模型
强推理LLM
教学方法
分享至
打开微信扫一扫
内容投诉
生成图片
LLM进入「拖拽时代」!只靠Prompt,几秒定制一个大模型,效率飙升12000倍
近日,由新加坡国立大学、得克萨斯大学奥斯汀分校等机构的研究人员联合开发的「拖拽式大语言模型」(DnD)引发关注。该模型基于提示词快速生成任务专属参数,无需微调即可适应不同场景,效率比传统方法提升12000倍。DnD通过轻量级文本编码器与级联超卷积解码器,在数秒内生成LoRA权重矩阵,展现出卓越的零样本泛化能力。实验表明,其在数学、代码及多模态任务中性能优于现有方法,且仅需无标签提示词即可完成适配。这项技术为大模型快速专业化提供了高效解决方案,有望推动AI应用落地。
神经网络领航员
06-24 17:19:19
LLM
参数生成
拖拽式大语言模型
分享至
打开微信扫一扫
内容投诉
生成图片
AI圈纷纷传阅,Andrej Karpathy 的最新演讲全文来了
在旧金山举行的YC AI创业学校上,OpenAI创始科学家Andrej Karpathy发表演讲,探讨软件的三次变革。他提出软件1.0基于代码,2.0基于神经网络权重,而3.0通过大语言模型(LLM)实现可编程性,标志着新型计算机的诞生。Karpathy认为LLM如同操作系统,正处于‘大型机时代’,依赖云端分时系统,个人计算尚未普及。尽管LLM功能强大,但也存在记忆缺陷、幻觉生成等问题,需通过生成-验证循环加以约束。他还强调氛围编程兴起,用英语作为新编程语言,大幅降低编程门槛,让非专业人员也能参与。LLM的广泛应用依赖于工具优化及基础设施调整,未来十年将是探索与发展的关键时期。
超频思维站
06-23 17:26:53
Andrej Karpathy
LLM
软件3.0
分享至
打开微信扫一扫
内容投诉
生成图片
人工利维坦:从霍布斯社会契约理论看LLM智能体的社会演化
标题:人工利维坦:从霍布斯社会契约理论看LLM智能体的社会演化 摘要:随着大语言模型(LLMs)的兴起,我们有了在大规模计算环境下研究社会行为的新工具。本文通过构建基于LLM的多智能体沙盒模拟,探索智能体在资源稀缺环境下的行为演化。实验发现,智能体从“人人相斗”的霍布斯状态逐步形成社会契约,最终...
DreamCoder
06-20 22:08:51
多智能体模拟(Multi-Agent Simulation)
大语言模型(LLMs)
社会契约理论(SCT)
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek研究员1200行代码复刻vLLM,H800硬件实测性能反超原版
标题:DeepSeek研究员1200行代码复刻vLLM,H800硬件实测性能反超原版 仅用不到1200行代码,DeepSeek研究员俞星凯成功复刻了vLLM,并开源了一个名为Nano-vLLM的项目。该项目以其快速离线推理、简洁代码库和优化套件(如前缀缓存、Torch compilation、C...
量子思考者
06-13 16:11:09
DeepSeek
Nano-vLLM
vLLM
分享至
打开微信扫一扫
内容投诉
生成图片
MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B
标题:MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B 正文: “预测下一个token”——这一LLM核心训练机制正被强化学习颠覆。微软亚洲研究院(MSRA)联合清华大学、北京大学提出全新预训练范式RPT(强化预训练),首次将强化学习深度融入预训练阶段,让模型在预测每个token...
Nebula
06-11 17:15:11
LLM
RPT
强化预训练
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序