
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
阿里发布名为WebDancer的信息检索Agent,能够像人类一样上网搜索和推理。它在GAIA和WebWalkerQA基准测试中分别取得61.1%和54.6%的Pass@3分数,表现优于基线模型和部分开源框架。模型与方法已开源。
WebDancer通过四阶段训练范式实现自主信息搜索能力:浏览数据构建...
原文链接
标题:只改2行代码,RAG效率暴涨30%!可扩展至百亿级数据规模应用
只需修改两行代码,RAG向量检索效率提升30%,适用于文搜文、图搜图、文搜图及推荐系统召回等多种任务,且具备十亿至百亿级数据的扩展能力。浙江大学高云君、柯翔宇团队与向量检索专家傅聪合作,开源新方法PSP(Proximity g...
原文链接
标题:快手与东北大学联合推出UNITE框架,突破多模态检索瓶颈
多模态检索作为信息获取的关键技术,长期受制于跨模态干扰问题。为此,快手与东北大学的研究团队共同开发了多模态统一嵌入框架——UNITE。该框架旨在构建一个能够同时处理文本、图像、视频及其融合模态输入的统一嵌入器。
UNITE通过对比学...
原文链接
标题:大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%
你以为大模型已经能轻松“上网冲浪”了?全新基准测试集BrowseComp-ZH直接打脸主流AI。这项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的测试集,让20多个中外主流大模型集体“挂科”。其中,G...
原文链接
标题:仅1/70数据量,多模态检索效果更优!智源发布BGE-VL,合成数据立大功
BGE系列模型自发布以来广受好评。近日,智源研究院联合多所高校开发了多模态向量模型BGE-VL,进一步扩展了原有生态体系。BGE-VL在图文检索、组合图像检索等主要多模态检索任务中表现最佳,借助大规模合成数据MegaP...
原文链接
Perplexity推出了对标OpenAI的“深度检索”功能,主打深度检索与专业输出。在Humanity's Last Exam测试中,其准确率达21.1%,远超其他模型。此功能已全量推送,但免费用户每天仅限五次。
测试显示,“深度检索”在回答权威性和时效性问题上表现良好,但在处理复杂问题和生成详细报告方面仍有不足。例如,关于2023年诺贝尔经济学奖得主的研究,虽然信息准确,但内容略显简短;而在解析音视频内容时,虽有一定理解能力,但资料的时效性标注需更清晰。
此外,“深度检索”在逻辑完整性和模糊问题处理上表现尚可,能够提供一定的分析和见解,但未达到生成详尽报告的标准。尽管有导出PDF的功能,实际体验仍需提升。
整体来看,Perplexity的“深度检索”在基础功能上表现出色,但在深度研究和报告生成方面还有待加强。
原文链接
标题:Llama都在用的RoPE有了视频版,长视频理解/检索绝佳拍档
VideoRoPE团队投稿
量子位 | 公众号 QbitAI
Llama都在用的RoPE(旋转位置嵌入)被扩展至视频领域,增强了长视频理解和检索能力。复旦大学与上海AI实验室等机构提出了VideoRoPE,并明确了将RoPE应用于...
原文链接
《华尔街日报》报道,多款先进AI聊天机器人在回答记者关于其配偶的问题时,给出了匪夷所思的回答,包括不认识的作家、陌生女性及网球博主。尽管AI在复杂数学问题上表现优秀,但在基本事实方面常出错,如捏造法律案件、混淆电影情节等。IBM实习生Roi Cohen表示,AI的工作原理类似高级猜测,倾向于自信地给出答案。为解决“幻觉”问题,研究人员正尝试“检索增强生成”技术,让AI先查找信息再作答。此外,Cohen和Konstantin Dobler提出让AI学会承认“我不知道”。尽管AI越来越强大,但美国民众对其信任度下降,2023年52%的人感到担忧,高于2021年的37%。
原文链接
标题:Search版o1:推理过程会主动查资料,整体性能优于人类专家,清华人大出品
衡宇 白小交 发自 凹非寺
量子位 | 公众号 QbitAI
一个新框架让Qwen版o1成绩暴涨,在博士级别科学问答、数学、代码能力的11项评测中,能力显著提升,拿下10个第一!
这就是人大、清华联手推出的最新「Ag...
原文链接
Meta AI推出新型AI模型LIGER,结合密集检索和生成检索优势,提升生成式推荐系统性能。LIGER有效解决计算资源、存储需求及冷启动项目处理难题,提高效率与精准度。在Amazon Beauty、Steam等数据集上,LIGER性能优于TIGER和UniSRec。该模型采用双向Transformer编码器和生成解码器,混合推理过程使其适应性更强。1月2日发布。
原文链接
加载更多

暂无内容