【快讯】实验室1篇文章被ICLR’24录用

近期，实验室与MSRA合作的论文“DENEVIL: TOWARDS DECIPHERING AND NAVIGATING THE ETHICAL VALUES OF LARGE LANGUAGE MODELS VIA INSTRUCTION LEARNING”被国际学术会议ICLR’24录用。该文提出了一个可以动态评估大语言模型价值观的评估框架DeNEVIL。DeNEVIL通过迭代式的生成，诱导大语言模型生成违反特定价值观的提示。基于道德基础理论（Moral Foundation Theory），论文利用DeNEVIL算法构建了Moral Prompt价值观评估数据集，然后测试了27个主流的大语言模型，发现了语言模型与人类价值观的不一致性。而后探索了基于上下文对齐的方式，尝试对大语言模型进行了对齐。

ICLR是全球机器学习领域的顶级学术会议之一，享有很高的学术声誉。本届ICLR一共投稿7304篇，录用论文2250篇，录用率为31%。