1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

探索大模型背后的隐忧:AI科技评论对话李博

在AI领域,大模型的快速发展并未同步推进其安全性研究。李博教授,作为ICML大会的Tutorial Chair,强调大模型能力的增强并不意味着安全性的提升,应持续关注模型潜在风险和漏洞。

李博现任伊利诺伊大学香槟分校和芝加哥大学教授,专注于机器学习、计算机安全、隐私和博弈论研究。她通过分析对抗性攻击,致力于构建现实世界中的可信机器学习系统。李博曾荣获多项荣誉,包括IJCAI的计算机与思想奖、MIT TR-35奖、斯隆研究奖等,并在亚马逊、Facebook、谷歌、英特尔和IBM等公司获得学术研究奖项。

去年12月,李博创立了Virtue AI,以应对大模型安全问题。这一时机选择源于ChatGPT的兴起,揭示了大模型在处理复杂任务时的挑战,尤其是幻觉问题。李博与“AI安全教母”宋晓冬教授共同成立Virtue AI,目前团队规模约20人,已获得数百万美元融资。

大模型在复杂任务处理中面临的挑战之一是幻觉问题。李博指出,仅依赖Transformer架构或数据驱动模型无法解决此问题,因为它们无法真正执行符号推理任务。她提出,结合数据驱动的泛化能力和逻辑推理能力的模型,才是解决幻觉问题的关键。

在ICML 2024大会上,李博分享了关于模型安全、大模型趋势及新公司Virtue AI的见解。她提到,大模型的热度催生了更多安全研究和政策议题,特别是与模型应用相关的风险。大模型能力提升并不意味着安全性同步提升,应主动发现并修复潜在风险。

李博在会议上展示了多篇论文,涉及理论分析和实际应用,如C-RAG和RigorLLM,后者已被引用,显示了其模型的弹性。她还参与了多个AI安全相关的工作坊和讨论,重点聚焦于AI安全领域。

展望未来,李博认为,解决模型安全问题的关键在于改进模型架构,使其既能泛化数据,又能进行逻辑推理。同时,她强调了国内在大模型安全领域的研究,指出国内在可信安全实验室、政策制定等方面已有显著进展。

面对大模型的广泛应用,李博指出可信AI的重要性。她认为,当前大模型部署受限于安全争议,未来发展的瓶颈在于如何将完善的大模型安全地应用于实际场景。为此,Virtue AI正在研发风险评估工具、Guardrail模型、Safe Agent等产品,旨在为AI系统的安全性提供解决方案。

创立Virtue AI的初衷是将研究成果转化成实践应用,解决大模型在实际部署中遇到的安全问题。公司正在与斯坦福大学HELM合作开发AIR-BENCH 2024基准,用于评估AI模型的安全性和合规性,并与Huggingface共同管理LLM安全排行榜。

李博强调,Virtue AI的长期目标是成为安全模型的领导者,短期内则致力于缩小大模型与实际应用之间的差距,确保现有AI模型的安全性。面对挑战,公司正积极招聘对AI和AI安全感兴趣的专家,计划将研究转化为产品,解决行业面临的安全难题。

原文链接
本文链接:https://kx.umi6.com/article/4332.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
移动端 AI 安全再突破:水印保护新范式 THEMIS 框架发布,403 个 AI App 成功保护率超 8 成
2025-04-11 15:55:09
UIUC 李博:如何探索大模型背后的安全隐忧?|ICML2024直击
2024-07-31 20:11:27
48小时生成500万字小说?AI侵袭网文圈 有编辑称四成收稿来自AI
2026-03-10 17:45:02
超算互联网:OpenClaw正式打通飞书、企业微信
2026-03-09 14:48:46
打败GPT-5.2,嵌入真实工业生产,这个大模型什么来头?
2026-03-09 16:53:38
脉脉:AI岗位量暴涨12倍 平均月薪超6万元领跑春招市场
2026-03-09 19:05:07
常熟下场“养龙虾”:对“一人公司”最高拟予600万元支持
2026-03-10 13:18:55
OpenAI聘请OpenClaw AI智能体开发者斯坦伯格
2026-03-09 21:13:27
和别人用一样的“提示词”生成相同的AI作品 算不算侵权?法院判了
2026-03-09 16:55:46
史上最大规模!百度启动暑期实习招聘:九成岗位与AI相关
2026-03-10 16:34:10
佛山市禅城区:推出面向公众的“小龙虾”免费部署服务
2026-03-10 17:48:21
火山引擎上线ArkClaw:开箱即用的云上SaaS版OpenClaw
2026-03-09 15:55:48
北京市新增1款已完成备案生成式人工智能服务
2026-03-10 10:03:26
24小时热文
更多
扫一扫体验小程序