标题:多个中国团队斩获EMNLP'24最佳论文!UCLA华人学者中三篇杰出论文,明年顶会落户苏州
正文:
刚刚,EMNLP 2024最佳论文奖公布,共5篇获奖,其中3篇由华人学者主导,分别来自CMU、上海交通大学、中国科学院大学等机构。
其中,由中科院网络数据科学与技术重点实验室和中国科学院大学学者完成的《Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method》论文,旨在解决大语言模型预训练数据检测问题。这项研究提出了新的数据集和方法,有助于提高LLM训练数据透明度。
此次EMNLP共收录论文2978篇,比去年增长5%。除最佳论文外,杰出论文也揭晓,超过半数由华人学者参与。值得注意的是,EMNLP 2025将于明年11月5-9日在中国苏州举办。
获奖论文包括: 1. CMU的《An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance》:研究图像跨文化再创作任务,构建了包含SOTA生成模型的管道,发现当前图像编辑模型均未能完成任务,但可以通过LLM和检索器改进。 2. CMU、上海交大、丰田工业大学芝加哥分校的《Towards Robust Speech Representation Learning for Thousands of Languages》:介绍XEUS跨语言通用语音编码器,构建包含4057种语言、超100万小时数据的预训练语料库,实验结果显示XEUS在多个任务中表现优异。 3. 中科院网络数据科学与技术重点实验室、中国科学院大学的《Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method》:提出DC-PDD方法,通过计算文本的词元概率分布与词元频率分布的交叉熵来判断文本是否为训练数据,实验显示DC-PDD优于基线方法。 4. 康奈尔大学的《CoGen: Learning from Feedback with Coupled Comprehension and Generation》:研究语言理解和生成能力的耦合,提出在与用户交互中结合两者以提升性能,实验结果显示耦合方法显著提高模型性能。
杰出论文方面,共有20篇上榜,包括香港科技大学的《GoldCoin: Grounding Large Language Models in Privacy Laws via Contextual Integrity Theory》和南京大学的《Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge》等。华人学者、UCLA计算机科学系副教授Nanyun Peng团队此次赢麻了,她参与/指导的三篇论文都获奖了,分别是关于评估LLM在创意叙事生成方面能力的论文。
.png)

-
2025-07-20 09:01:50
-
2025-07-20 08:01:35
-
2025-07-19 22:57:32