【快讯】实验室1篇文章被ICLR’24录用

近期,实验室与MSRA合作的论文“DENEVIL: TOWARDS DECIPHERING AND NAVIGATING THE ETHICAL VALUES OF LARGE LANGUAGE MODELS VIA INSTRUCTION LEARNING”被国际学术会议ICLR’24录用。该文提出了一个可以动态评估大语言模型价值观的评估框架DeNEVIL。DeNEVIL通过迭代式的生成,诱导大语言模型生成违反特定价值观的提示。基于道德基础理论(Moral Foundation Theory),论文利用DeNEVIL算法构建了Moral Prompt价值观评估数据集,然后测试了27个主流的大语言模型,发现了语言模型与人类价值观的不一致性。而后探索了基于上下文对齐的方式,尝试对大语言模型进行了对齐。


ICLR是全球机器学习领域的顶级学术会议之一,享有很高的学术声誉。本届ICLR一共投稿7304篇,录用论文2250篇,录用率为31%。