介绍

LLaMA (Large Language Model Meta AI)是Meta AI于2023年2月24日发布的开源LLM(Large Language Model)大型语言基础模型。发布该类“小型”基础模型,使得资源有限的研究人员也能较轻易入门LLM模型的研究。LLaMA模型是在大量未标记数据上进行训练,这使得它们非常适合对各种任务进行微调。

LLaMA 的主要用途是对大型语言模型的研究。主要目标用户是自然语言处理、机器学习和人工智能领域的研究人员。注意:LLaMA 是一个基础模型,模型没有接受过人类反馈的训练,因此可能会生成有毒或令人反感的内容、不正确的信息或通常无用的答案。

模型训练说明

作为基础模型,LLaMA 被设计为多功能的,可以应用于许多不同的用例,而不是为特定任务设计的微调模型。LLaMA模型使用以下数据源进行训练:CCNet [67%]、C4 [15%]、GitHub [4.5%]、维基百科 [4.5%]、书籍 [4.5%]、ArXiv [2.5%]、Stack Exchange[ 2%]。维基百科和图书域包括以下语言的数据:bg、ca、cs、da、de、en、es、fr、hr、hu、it、nl、pl、pt、ro、ru、sl、sr、sv、uk。其中大部分数据集都是由英语文本组成,因此该模型在英语方面的表现比其他语言更好。

训练数据集:

LLaMA模型有不同的尺寸,参数分别有7B(70亿)、13B(130亿)、33B(330亿)和65B(65亿)。LLaMA模型超参数如下表:

LLaMA Model hyper parameters
Number of parametersdimensionn headsn layersLearn rateBatch sizen tokens
7B 4096 32 32 3.0E-044M1T
13B512040403.0E-044M1T
33B665652601.5.E-044M1.4T
65B819264801.5.E-044M1.4T

表格说明:

  • LLaMA 7B和13B已经过1T(1万亿)token的训练;LLaMA 33B和65B已经过1.4T(1.4万亿)token训练。1个token相当于大约3/4个单词,100个token相当于大约75个单词。

模型评估说明

评估模型性能指标包括:

  • 常识推理、阅读理解、自然语言理解 (MMLU)、BIG-bench Hard、WinoGender 和 CrowS-Pairs 的准确性
  • 精确匹配问答
  • RealToxicityPrompts 上 Perspective API 的毒性评分

模型评估数据集包括:

  • BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA、NaturalQuestions、TriviaQA、RACE、MMLU、BIG-bench Hard、GSM8k、RealToxicityPrompts、WinoGender、CrowS-Pairs

下表是LLama模型在推理任务上的表现:

LLaMA Reasoning tasks
Number of parameters BoolQPIQASIQAHellaSwagWinoGrandeARC-eARC-cOBQACOPA
7B76.579.848.976.170.176.747.657.293
13B78.180.150.479.27378.152.756.494
33B83.182.350.482.87681.457.858.692
65B85.382.852.384.27781.55660.294

LLama模型和其它模型在推理任务上的性能对比:

LLama模型和其它模型在阅读理解上的性能对比:

小结

本章介绍了LLaMA模型的基本概念和相关信息,下一章讲解如何部署运行LLaMA 7B模型。

相关链接