Multilingual LAMA, Investigating Knowledge in Multilingual Pretrained Language Models

发表于 2023/08/02

作者 ljl

1 分钟阅读

本文的主要动机来源于，发现多语言的背景下，LMs会表现出语言偏差，例如使用意大利语，会倾向于将意大利预测为原产国。

例如上图，可以看到语言的倾向是很大的，会对预测结果产生较大的影响，本文针对这个问题，利用mBERT做了以下问题探究：

本文的主要方法如下所示：

选取了已有的数据集TREx，GoogleRE，自动翻译为了多语言版本（包括53种不同的语言）；

针对已有数据集当中的三元组做处理(对象，关系，主题)；

针对原有数据集的内容，将填空查询替换为了排序。

本文由作者按照 CC BY 4.0 进行授权

热门标签