综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年12月,南洋理工大学发布首个全面评测大型语言模型(LLM)处理结构化电子病历(EHR)能力的基准EHRStruct。该基准由计算机科学家与医学专家联合构建,涵盖11项核心任务、2,200个标准化样本,按临床场景和认知层级分类,为医疗AI提供严谨评测框架。研究团队对20个主流LLM及11种增强方法进行评测,并提出代码增强框架EHRMaster,显著提升性能,尤其在数据驱动任务中表现优异。研究成果已被AAAI 2026录取为Oral论文,并同步推出EHRStruct 2026挑战赛,供全球研究者对比模型能力。Leaderboard已在Codabench上线,推动LLM在医疗领域的应用探索。
原文链接
LLM能替代数据科学家了?DeepAnalyze帮你告别手动分析数据
你是否为复杂文件和海量数据而头疼?是否希望自动挖掘出有价值的信息?最近,人大与清华的研究团队推出了一款名为 DeepAnalyze 的工具——你的专属“数据科学家”。只需一个指令,它便能自动化完成数据分析、建模、可视化等任务,甚至...
原文链接
拜拜了GUI!中科院团队提出“LLM友好”计算机接口
大模型Agent自动操作电脑的理想很丰满,但现实却骨感。现有LLM智能体面临两大痛点:成功率低和效率差。复杂任务常让Agent卡住,简单任务也需要几十轮交互,耗时漫长。
问题出在哪?中国科学院软件研究所团队指出,瓶颈在于我们使用了40多年的图形用...
原文链接
英伟达推出通用深度研究系统,支持个人定制与任意LLM接入
英伟达近日发布了一款名为通用深度研究(UDR)系统的创新工具,支持个人定制并可接入任何大语言模型(LLM)。该系统能够围绕任意语言模型运行,用户可通过自然语言定义和优化自己的研究策略,无需额外训练或微调模型。
UDR的核心优势在于其高度灵活性...
原文链接
近日,研究发现一个冒号或特定推理开头语(如“Thought process:”)即可欺骗多个主流大语言模型(LLM),包括GPT-4o、Claude-4和LLaMA3-70B等。腾讯AI Lab、普林斯顿大学和弗吉尼亚大学的研究团队揭示了这一漏洞,指出其具有跨语言普遍性,并可通过嵌入相似度搜索生成更多对抗样本。为解决该问题,团队开发出增强数据集训练的‘评委’模型Master-RM,将假阳性率降至接近0%,同时保持高评估一致性。研究强调了强化学习验证流程中的安全挑战,未来需进一步提升模型稳健性。论文已公开,相关资源可在Hugging Face平台获取。
原文链接
近日,由新加坡国立大学、得克萨斯大学奥斯汀分校等机构的研究人员联合开发的「拖拽式大语言模型」(DnD)引发关注。该模型基于提示词快速生成任务专属参数,无需微调即可适应不同场景,效率比传统方法提升12000倍。DnD通过轻量级文本编码器与级联超卷积解码器,在数秒内生成LoRA权重矩阵,展现出卓越的零样本泛化能力。实验表明,其在数学、代码及多模态任务中性能优于现有方法,且仅需无标签提示词即可完成适配。这项技术为大模型快速专业化提供了高效解决方案,有望推动AI应用落地。
原文链接
在旧金山举行的YC AI创业学校上,OpenAI创始科学家Andrej Karpathy发表演讲,探讨软件的三次变革。他提出软件1.0基于代码,2.0基于神经网络权重,而3.0通过大语言模型(LLM)实现可编程性,标志着新型计算机的诞生。Karpathy认为LLM如同操作系统,正处于‘大型机时代’,依赖云端分时系统,个人计算尚未普及。尽管LLM功能强大,但也存在记忆缺陷、幻觉生成等问题,需通过生成-验证循环加以约束。他还强调氛围编程兴起,用英语作为新编程语言,大幅降低编程门槛,让非专业人员也能参与。LLM的广泛应用依赖于工具优化及基础设施调整,未来十年将是探索与发展的关键时期。
原文链接
标题:MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B
正文:
“预测下一个token”——这一LLM核心训练机制正被强化学习颠覆。微软亚洲研究院(MSRA)联合清华大学、北京大学提出全新预训练范式RPT(强化预训练),首次将强化学习深度融入预训练阶段,让模型在预测每个token...
原文链接
强化学习之父Richard Sutton近期指出,大型语言模型(LLM)的主导地位只是暂时现象,未来五年甚至十年内不会是技术前沿。他在新加坡国立大学120周年校庆演讲中再次强调,模仿人类思维的AI短期内可能提升性能,但从长远来看会阻碍研究进展。
Sutton在19年出版的《痛苦的教训》中就提到,单纯...
原文链接
斯坦福 Hazy Research 团队近期发布了一项重大优化成果:他们将开源模型 Llama-3.2-1B 的前向推理整合为一个名为“Megakernel”的单一 CUDA kernel,极大提升了推理速度。这项技术对于实时性强的应用场景尤为重要,例如对话式 AI 和交互式工作流。
团队发现,现有...
原文链接
加载更多
暂无内容