综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
11月18日,杭州润苗基金在杭州东部软件园正式启动,首期规模20亿元,存续期20年。该基金由杭州市国有资本投资运营有限公司管理,杭州市科创集团执行,聚焦成立5年内的科技型初创企业,单笔投资不超500万元且持股比例不超20%,计划年均投资超100个项目,目标到2027年构建涵盖5万家科技型中小企业的‘金字塔’梯队。启动仪式上还发布了润苗基金雷达大模型,通过AI实现从‘人找项目’到‘智选项目’的转变。(记者 王楚凡)
原文链接
标题:红杉中国推出全新AI基准测试xbench,要在AI下半场定义“好问题”
随着基础模型快速发展及AI Agent规模化应用,传统基准测试难以真实反映AI系统能力。为解决这一问题,红杉中国推出xbench,首个由投资机构联合十余家顶尖高校和研究机构打造的AI基准测试。它采用双轨评估体系和长青评估机制,不仅衡量理论上限,还关注实际效用。
xbench包含两部分:一是评估AI系统的技术边界,二是量化其在真实场景的价值。通过动态更新测试内容,保持时效性。首期发布了科学问题解答和中文互联网搜索两大测评集,并提出招聘和营销领域的垂类评测框架。
xbench源于红杉中国的内部实践,现向全社区开放,鼓励开发者、企业和研究者参与共建,共同推动AI能力评估新标准的形成。
原文链接
标题:大模型越狱攻击新基准与评估体系
香港科技大学(广州)USAIL研究团队提出了一套新的大语言模型(LLM)越狱攻击基准与评估体系——JailTrackBench,全面分析了影响大模型安全性的关键因素。研究揭示了模型大小、安全对齐情况、系统提示和模板类型等因素对越狱攻击防御能力的影响。
JailT...
原文链接
加载更多
暂无内容