介绍

Alpaca是斯坦福大学发布的经过微调训练的开源LLM(Large Language Model)大型语言模型。其中,Alpaca 7B模型是在Meta LLaMA 7B 模型上进行微调训练的,使用GPT-3.5 (text-davinci-003)以自指令的方式生成 52K 个指令遵循例子来对模型进行训练。Alpaca模型的性能表现接近OpenAI的GPT-3.5 (text-davinci-003)模型。

LLaMA模型与Alpaca模型的关系:

  • LLaMA模型是经过预训练阶段得到的模型;Alpaca模型是在LLaMA模型的基础上经过微调训练阶段得到的模型;
  • 预训练阶段是指:在大规模文本数据上进行的无监督训练,用于学习自然语言文本的模式和规律,如词汇语法和上下文关系
  • 微调阶段是指:将已经过预训练的模型,针对特定的应用任务进行优化训练
  • LLaMA模型就像刚上大一的新生,而Alpaca模型就像学习了某个专业拥有某项专长的大四学生

注意:Alpaca 是基于 LLaMA 的,它具有非商业许可,仅用于学术研究,禁止任何商业用途。

模型训练说明

Alpaca 基于 LLaMA 模型进行微调,使用OpenAI GPT-3.5 (text-davinci-003) 生成 52K 个指令遵循数据进行监督学习。通过下面这些步骤,训练得到Alpaca模型。

  • 步骤1:获取训练数据集。使用自我指导方法,从自我指导方法代码仓库中,选择175对人类编写的指令遵循数据作为种子集
  • 步骤2:使用上述种子集作为上下文示例,使用OpenAI GPT-3.5 (text-davinci-003) 模型生成更多相关指令
  • 步骤3:生成52K个指令遵循数据作为训练集,使用 Hugging Face 的训练框架对LLaMA 7B 模型进行监督学习训练

模型训练流程如下:

微调训练超参数:

Hyperparameter LLaMA-7B LLaMA-13B
Batch size 128 128
Learning rate 2e-5 1e-5
Epochs 3 5
Max length 512 512
Weight decay 0 0

模型评估说明

使用自我指导评估数据集进行人工评估,GPT-3.5 (text-davinci-003) 和 Alpaca 7B 进行了盲法成对比较,发现这两个模型具有非常相似的性能:Alpaca 在与 GPT-3.5 (text-davinci-003) 的比较中以 90 比 89 获胜。另外,以交互方式测试了 Alpaca 模型,发现 Alpaca 在多种输入上的表现通常与 GPT-3.5 (text-davinci-003) 类似。举例如下:

例子:知识问答

例子:写E-Mail

不足和未来发展方向

Alpaca模型表现出语言模型的一些常见缺陷,包括幻觉、毒性以及偏见,生成有毒或令人反感的内容、不正确的信息或通常无用的答案等。例如,Alpaca错误地说坦桑尼亚的首都是达累斯萨拉姆(达累斯萨拉姆是坦桑尼亚最大的城市)(达累斯萨拉姆曾经是首都,但在1974年,被Dodoma取代了)。

但发布Alpaca模型数据、模型权重和训练代码,对于可重复科学具有巨大的好处,以便学术界可以使用标准数据集、模型和代码来执行受控比较并探索扩展。

未来发展方向:

  • 评估:使用HELM (语言模型的整体评估)更严格地评估模型,希望它能够发展以捕获更多生成性、遵循指令的场景。
  • 安全性:进一步研究Alpaca模型的风险,并通过自动红队、审计、自适应测试等方法提高其安全性。
  • 理解:我们希望更好地理解能力是如何从培训方案中产生的。您需要基本模型的哪些属性?当你扩大规模时会发生什么?需要指令数据的哪些属性?在 text-davinci-003 上使用自我指令的替代方法是什么?

相关链接