
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
近日,由新加坡国立大学、得克萨斯大学奥斯汀分校等机构的研究人员联合开发的「拖拽式大语言模型」(DnD)引发关注。该模型基于提示词快速生成任务专属参数,无需微调即可适应不同场景,效率比传统方法提升12000倍。DnD通过轻量级文本编码器与级联超卷积解码器,在数秒内生成LoRA权重矩阵,展现出卓越的零样本泛化能力。实验表明,其在数学、代码及多模态任务中性能优于现有方法,且仅需无标签提示词即可完成适配。这项技术为大模型快速专业化提供了高效解决方案,有望推动AI应用落地。
原文链接
标题:人工利维坦:从霍布斯社会契约理论看LLM智能体的社会演化
摘要:随着大语言模型(LLMs)的兴起,我们有了在大规模计算环境下研究社会行为的新工具。本文通过构建基于LLM的多智能体沙盒模拟,探索智能体在资源稀缺环境下的行为演化。实验发现,智能体从“人人相斗”的霍布斯状态逐步形成社会契约,最终...
原文链接
近日,中国科学院科学家首次证实多模态大语言模型(MLLMs)能自发形成与人类高度相似的物体概念表征系统。研究团队结合行为实验与神经影像分析,通过“三选一异类识别任务”,构建了AI大模型的‘概念地图’,并提取出66个可解释的心智维度。研究发现,这些维度与大脑特定区域的神经活动模式相关联。实验表明,多模态大模型(如Gemini_Pro_Vision、Qwen2_VL)在行为选择上与人类一致性更高。此研究发表于《自然・机器智能》,为AI认知科学开辟新方向,也为构建类人认知结构的AI系统提供理论支持。
原文链接
标题:从归因图到AI的“生物学”:探索Claude3.5 Haiku的内部机制
正文:
在人工智能领域,大语言模型(LLMs,如Claude 3.5 Haiku)已展现强大语言处理能力,但其内部机制仍似“黑箱”。Anthropic团队通过“归因图”新方法揭示模型从输入到输出的计算步骤,部分解...
原文链接
标题:挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化
无需标注数据、无需复杂奖励设计,仅用一条无标签数据和10步优化,「熵最小化」可能比强化学习更适合快速提升大语言模型性能。
强化学习(RL)近年来在大语言模型(LLM)微调中取得成功,但高昂的数据标注成本、复杂的奖励设计及漫长的...
原文链接
Mamba核心作者新作:专为推理优化的注意力机制
曾推动Transformer革新的Mamba作者之一Tri Dao,发布新研究——提出两种专为推理设计的注意力机制,大幅提升了解码速度和吞吐量,尤其在长上下文推理中表现优异。
这项由普林斯顿大学团队完成的研究包含两大创新:
其一,Grouped-Ti...
原文链接
标题:基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
你是否曾对大语言模型(LLMs)下达过明确的“长度指令”?比如,“写一篇10,000字的长文”。看似简单的要求,实际却让模型“力不从心”:要么生成不足,要么重复啰嗦,甚至直接罢工。
最新研究论文《LIFEB...
原文链接
《科创板日报》26日消息,美团CEO王兴在今日财报业绩会上透露,目前美团新代码中有52%由AI生成,超90%的工程师团队广泛使用AI编码工具。王兴表示,美团将持续加大投资开发大语言模型,并已将资源集中于基础设施建设,同时积极招聘顶尖AI人才,以确保中国团队处于行业领先地位。
原文链接
5月26日晚,美团CEO王兴在财报业绩会上透露,公司新代码中有52%由AI生成,超90%的工程师使用AI编码工具。美团计划继续加大投资开发大语言模型,并将资源优先分配给基础设施建设,同时积极招聘顶尖AI人才以确保中国最佳团队实力。此前,美团已向内部工程师推出自动代码生成工具,其基础大模型能力接近GPT-4水平。财报显示,美团第一季度营收达865.6亿元人民币,核心本地商业分部经营溢利同比增长39.1%至135亿元,而新业务分部的经营亏损则从去年同期的28亿元收窄至23亿元。
原文链接
标题:GPT-4o不敌Qwen,无一模型及格!UC伯克利等提出多模态新基准
多视图理解推理有了新的评判标准!多视图理解指从不同视角整合视觉信息以实现理解决策。例如,机器人需根据多摄像头画面判断物体位置、距离和运动方向。然而,由于缺乏评估基准,该领域研究进展缓慢。
UC伯克利、忆生科技、香港大学等...
原文链接
加载更多

暂无内容