【深度学习】OPT: Open Pre-trained Transformer Language Models

Posted by ShawnD on May 5, 2022

Abstract

大型语言模型通常需要训练数十万天的计算时间,它们在 zero-shot 和 few-shot 学习方面表现出了非凡的能力。

考虑到它们的计算成本,如果没有大量的资金,这些模型很难复制。

对于少数通过api可用的,没有授权访问完整的模型权重,使它们难以研究。

这篇文章推出了 Open Pre-trained Transformer (OPT),这是一套仅解码器的预训练 Transformer ,参数范围从125M到175B,我们的目标是全面和负责任地与感兴趣的研究人员分享。

结果表明 OPT-175B 与 GPT-3 有相当的性能, 同时只有 1/7 的碳排放量。

这篇文章还发布了日志,详细描述了所面临的基础架构挑战,以及用于试验所有发布模型的代码。

Conclusion

在这篇技术报告中介绍了OPT,一组自回归语言模型,参数范围从125M到175B。

其目标是复制GPT-3类模型的性能和规模,同时应用数据管理和训练效率方面的最新最佳实践。

这篇文章描述了训练细节,评估了在一些自然语言处理和对话设置中的表现,并描述了有关偏见、恶毒和仇恨言论的行为。

这篇文章还描述了模型所具有的许多其他限制,并讨论了负责地发布模型的广泛考虑事项。

我们相信, 整个人工智能社区将受益于共同为负责任的llm制定指导方针,我们希望这些类型的模型的广泛访问将增加定义此类技术的伦理考虑的声音的多样性。