1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

探索大模型背后的隐忧:AI科技评论对话李博

在AI领域,大模型的快速发展并未同步推进其安全性研究。李博教授,作为ICML大会的Tutorial Chair,强调大模型能力的增强并不意味着安全性的提升,应持续关注模型潜在风险和漏洞。

李博现任伊利诺伊大学香槟分校和芝加哥大学教授,专注于机器学习、计算机安全、隐私和博弈论研究。她通过分析对抗性攻击,致力于构建现实世界中的可信机器学习系统。李博曾荣获多项荣誉,包括IJCAI的计算机与思想奖、MIT TR-35奖、斯隆研究奖等,并在亚马逊、Facebook、谷歌、英特尔和IBM等公司获得学术研究奖项。

去年12月,李博创立了Virtue AI,以应对大模型安全问题。这一时机选择源于ChatGPT的兴起,揭示了大模型在处理复杂任务时的挑战,尤其是幻觉问题。李博与“AI安全教母”宋晓冬教授共同成立Virtue AI,目前团队规模约20人,已获得数百万美元融资。

大模型在复杂任务处理中面临的挑战之一是幻觉问题。李博指出,仅依赖Transformer架构或数据驱动模型无法解决此问题,因为它们无法真正执行符号推理任务。她提出,结合数据驱动的泛化能力和逻辑推理能力的模型,才是解决幻觉问题的关键。

在ICML 2024大会上,李博分享了关于模型安全、大模型趋势及新公司Virtue AI的见解。她提到,大模型的热度催生了更多安全研究和政策议题,特别是与模型应用相关的风险。大模型能力提升并不意味着安全性同步提升,应主动发现并修复潜在风险。

李博在会议上展示了多篇论文,涉及理论分析和实际应用,如C-RAG和RigorLLM,后者已被引用,显示了其模型的弹性。她还参与了多个AI安全相关的工作坊和讨论,重点聚焦于AI安全领域。

展望未来,李博认为,解决模型安全问题的关键在于改进模型架构,使其既能泛化数据,又能进行逻辑推理。同时,她强调了国内在大模型安全领域的研究,指出国内在可信安全实验室、政策制定等方面已有显著进展。

面对大模型的广泛应用,李博指出可信AI的重要性。她认为,当前大模型部署受限于安全争议,未来发展的瓶颈在于如何将完善的大模型安全地应用于实际场景。为此,Virtue AI正在研发风险评估工具、Guardrail模型、Safe Agent等产品,旨在为AI系统的安全性提供解决方案。

创立Virtue AI的初衷是将研究成果转化成实践应用,解决大模型在实际部署中遇到的安全问题。公司正在与斯坦福大学HELM合作开发AIR-BENCH 2024基准,用于评估AI模型的安全性和合规性,并与Huggingface共同管理LLM安全排行榜。

李博强调,Virtue AI的长期目标是成为安全模型的领导者,短期内则致力于缩小大模型与实际应用之间的差距,确保现有AI模型的安全性。面对挑战,公司正积极招聘对AI和AI安全感兴趣的专家,计划将研究转化为产品,解决行业面临的安全难题。

原文链接
本文链接:https://kx.umi6.com/article/4332.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
移动端 AI 安全再突破:水印保护新范式 THEMIS 框架发布,403 个 AI App 成功保护率超 8 成
2025-04-11 15:55:09
UIUC 李博:如何探索大模型背后的安全隐忧?|ICML2024直击
2024-07-31 20:11:27
OpenAI 预告“AI 浏览器”ChatGPT Atlas 未来更新:标签组、广告拦截器等
2025-10-24 09:30:10
友情明码标价,他们花钱「租网友聊天」
2025-10-25 08:14:19
六大AI实盘交易追踪:中国模型收益领跑,GPT本金亏到不足三成
2025-10-23 18:12:20
OpenAI合作伙伴Crusoe在新一轮融资中估值达100亿美元
2025-10-24 03:21:23
BBC 等机构研究评估 AI 工具新闻总结水平,谷歌 Gemini 错误比例最高
2025-10-24 08:27:09
AI浏览器,谷歌比OpenAI就差个老板直播带货
2025-10-24 10:32:29
云计算“活教科书”语出惊人,指明程序员的进化方向
2025-10-24 16:43:46
FM Agent登顶OpenAI MLE-Bench,由百度智能云研发
2025-10-24 17:44:39
字节跳动推出3D生成大模型
2025-10-23 16:11:27
百亿参数人类基因组通用基础模型发布
2025-10-23 20:16:19
存储芯片领域又冲出一家IPO
2025-10-24 18:47:13
24小时热文
更多
扫一扫体验小程序