热点资讯

科技部人才与科学普及司GPT-4 炼丹指南数据驱动的MoE参数量训练成本和推理秘密解析

更新时间 2025年03月06日 2025年03月07日

在深入探讨GPT-4模型架构、训练和推理infrastructure时，我们首先需要了解其规模。据估计，GPT-4拥有约1.8万亿个参数，这些参数分布在120个Transformer层上，与GPT-3相比，其参数量为前者的10倍以上。为了控制成本，OpenAI选择使用混合专家（Mixture-of-Experts, MoE）模型，每次前向传递中会调用其中的两个专家模型。

MoE是一种深度学习架构，由多个专家组成，每个专家负责处理输入数据的不同方面，并拥有自己的参数集。在推理过程中，根据输入数据的不同特征，模型会将输入路由到不同的专家，每个专家的输出后完成最终输出。OpenAI所采用的这一套算法相当简单，至少对GPT-4而言是这样的。

此外，大约有550亿共享参数用于注意力机制，而每次前向推理仅利用了约2800亿参数和560TFLOP。这与纯粹使用稠密模型每次前向推理所需的18000亿参数和3700TFLOP形成鲜明对比。

数据集

GPT-4是在约13万亿tokens上训练的，这一数字考虑到了CommonCrawl RefinedWeb包含了高质量文本中的5万亿tokens。此外，由于缺乏高质量token，该数据集包含了多个epoch。基于文本的数据有2个epoch，而基于代码的数据有4个epoch。这远远没有实现Chinchilla-optimal（需要在双倍token数上训练），这也说明网络上的易获得token不足。