Abstract

语言模型的预训练已被证明能够捕获大量对自然语言处理（NLP）任务至关重要的世界知识，例如问答。

然而，这些知识被隐含地存储在神经网络的参数中，需要更大的网络来覆盖更多事实。

为了以更模块化和可解释的方式捕获知识，我们通过一个潜在知识检索器来增强语言模型的预训练，该检索器允许模型从如维基百科这样的大型语料库中检索并关注文档，这在预训练、微调和推理过程中都会用到。

我们首次展示了如何以无监督的方式预训练这样一个知识检索器，使用遮蔽语言建模作为学习信号，并通过一个涉及数百万文档的检索步骤进行反向传播。

我们通过在开放域问答（Open-QA）这一具有挑战性的任务上进行微调，展示了增强检索的语言模型预训练（REALM）的有效性。

我们在三个热门的开放域问答基准测试上与最先进的显式和隐式知识存储模型进行了比较，并发现我们的表现超越了所有先前方法（绝对准确率提高了4-16%），同时还提供了可解释性和模块化等定性优势。

【ICML 2020】REALM: Retrieval-Augmented Language Model Pre-Training