热点资讯

科技部人才与科学普及司GPT-4 炼丹指南数据驱动的MoE参数量训练成本和推理秘密解析

在深入探讨GPT-4模型架构、训练和推理infrastructure时,我们首先需要了解其规模。据估计,GPT-4拥有约1.8万亿个参数,这些参数分布在120个Transformer层上,与GPT-3相比,其参数量为前者的10倍以上。为了控制成本,OpenAI选择使用混合专家(Mixture-of-Experts, MoE)模型,每次前向传递中会调用其中的两个专家模型。

MoE是一种深度学习架构,由多个专家组成,每个专家负责处理输入数据的不同方面,并拥有自己的参数集。在推理过程中,根据输入数据的不同特征,模型会将输入路由到不同的专家,每个专家的输出后完成最终输出。OpenAI所采用的这一套算法相当简单,至少对GPT-4而言是这样的。

此外,大约有550亿共享参数用于注意力机制,而每次前向推理仅利用了约2800亿参数和560TFLOP。这与纯粹使用稠密模型每次前向推理所需的18000亿参数和3700TFLOP形成鲜明对比。

数据集

GPT-4是在约13万亿tokens上训练的,这一数字考虑到了CommonCrawl RefinedWeb包含了高质量文本中的5万亿tokens。此外,由于缺乏高质量token,该数据集包含了多个epoch。基于文本的数据有2个epoch,而基于代码的数据有4个epoch。这远远没有实现Chinchilla-optimal(需要在双倍token数上训练),这也说明网络上的易获得token不足。

并行策略

并行处理对于A100 GPU至关重要。OpenAI采用了8路(8-way)规模张量并行策略,以确保有效地利用硬件资源。此外,还涉及到batch size的问题,它影响着计算效率以及内存带宽需求,以及如何平衡这些因素以达到最佳效果是一个复杂问题。

综上所述,本文旨在揭示通过技术创新解决大型语言模型(GoogLe AI)性能瓶颈的一系列工程设计背后的考量,以及如何通过MoE等方法来优化其结构,从而实现更高效能且经济实惠的人工智能系统。本研究为未来的研究提供了一定的启发,同时也展现了人工智能领域不断进步的一面,为公众普及科技知识做出了贡献。