ChatGPT、文心一言这类大模型到底要消耗多少GPU？

来源：　作者：洪笛童　时间：2023-04-18 23:54:29　浏览：次

[ 导读 ] 由ChatGPT引发的算力军备竞赛已经悄然而至了。从另一个侧面也可以得到印证：近期，浪潮在接受媒体采访时，就曾对外表示，“AIGC火热带来AI服务器需求量的爆增，3月份我们发现AI（服务器）市场出现几倍以上增长，以前（客户关注点）是能不能便宜点，现在是能不能用得上。”近日，有媒体援引知情人士消息称，特斯拉CEO马斯克在推特内部启动了一项人工智能项目，为此购买了约1万个GPU。在此之前，在业界就不断

由ChatGPT引发的算力军备竞赛已经悄然而至了。

从另一个侧面也可以得到印证：近期，浪潮在接受媒体采访时，就曾对外表示，“AIGC火热带来AI服务器需求量的爆增，3月份我们发现AI（服务器）市场出现几倍以上增长，以前（客户关注点）是能不能便宜点，现在是能不能用得上。”

近日，有媒体援引知情人士消息称，特斯拉CEO马斯克在推特内部启动了一项人工智能项目，为此购买了约1万个GPU。

在此之前，在业界就不断流传各个互联网大厂都在紧急备货GPU，为其大模型开路。

地主家也没余粮。ChatGPT 本身也一直被算力紧缺所困扰。4 月 6 日， ChatGPT 就" 因需求量太大暂停了升级服务 "，并停止 Plus 付费项目的销售。

为了给ChatGPT 提供算力保障，其金主爸爸微软可以说劳心劳力。据悉，微软用几亿美元，耗费上万张英伟达A100芯片打造超算平台，只为给ChatGPT和新版必应提供更好的算力。不仅如此，微软还在Azure的60多个数据中心部署了几十万张GPU，用于ChatGPT的推理。

事实上，算力紧张这件事情，是从一开始就伴随着ChatGPT 。当初OpenAI选择与微软合作，算力就是一个至关重要的考虑因素。据悉，OpenAI在最初商量与微软合作时，OpenAI要求微软在Azure云计算平台上“腾出”足够的算力单独给它们使用，且确保它们不与Azure提供的其他服务产生冲突。

业界普遍认为，大模型是巨头们的“玩具”，动辄上亿元的投入，小玩家是上不了“赌桌”的。

但是，不要忘了ChatGPT这类大模型有两面，一方面是模型训练，另一方面是模型推理应用。动辄几亿的算力投入，还只是模型训练阶段。在模型推理应用阶段，对于算力的需求，要远远高于训练阶段。

也就是说，大模型的训练需要几亿打底，那要想将大模型进行规模化应用，比如支撑成百上千万用户的频繁使用，那需要的算力成本可能就是百亿量级了。

接下来，我们致力于搞清楚为什么ChatGPT这类大模型这么“吃”算力。尤其是要搞清楚在大模型的应用阶段，用户量、业务量跟底层算力需求是什么关系。在此基础上，我们来测算，要支撑足够的用户量和业务规模，到底需要多少算力（尤其是GPU）。

ChatGPT训练阶段的算力消耗

先来看看训练阶段的算力消耗。

训练大型模型需要大量的算力，因为需要处理海量的数据。训练这类模型所需的算力取决于以下因素：模型的规模（参数数量）、训练数据集的大小、训练轮次、批次大小。

在此，我们假定要训练一个千亿规模的大模型，用1PB数据进行训练，训练一次，并且在10天内完成训练。看看需要消耗多少算力，并计算这样的算力消耗，如果用英伟达的芯片，需要多少芯片。

首先，我们要了解一个概念，即FLOPs（浮点运算次数）。FLOPs用来衡量执行某个任务所需的计算量。假设一个千亿（1000亿）参数的大型模型，我们可以参考GPT-3。GPT-3中最大的模型（1750亿参数）的训练大约需要3.14 * 10^23次浮点运算（FLOPs）。

我们可以通过以下简化公式估算所需的FLOPs：

所需FLOPs = (千亿参数 / 1750亿参数) * 3.14 * 10^23 FLOPs

根据这个公式，我们得出训练一个千亿参数的模型大约需要1.8 * 10^23次浮点运算。

接下来，我们来看看英伟达的芯片。以英伟达A100 GPU为例，其具有每秒19.5万亿次（19.5 TFLOPs）的浮点运算能力。

要计算出需要多少个A100 GPU来满足这个算力需求，我们可以使用以下公式：

所需GPU数量 = 1.8 * 10^23 FLOPs / (19.5 * 10^12 FLOPs/s * 训练时间秒数)

如果希望在10天（约864000秒）内完成训练，可以按照以下计算方式得到所需GPU数量：

所需GPU数量 = 1.8 * 10^23 FLOPs / (19.5 * 10^12 FLOPs/s * 864000s)

根据这个公式，在10天内训练1000亿参数规模、1PB训练数据集，大约需要10830个英伟达A100 GPU。

接下来，我们来计算大模型的训练成本。

要计算训练一个千亿规模大型模型的总费用，我们需要考虑以下因素：GPU成本、其他硬件成本（如CPU、内存、存储等）、数据中心成本（如电力、冷却、维护等）、人力成本。

还是上面的例子，需要在10天内训练1000亿参数规模的大模型，总的成本如下：

猜你喜欢

声明：以上作品内容为傍晚网用户上传并发布，本平台仅提供信息存储服务。如有关于作品内容、版权或其它问题请于作品发表后的30日内与傍晚网联系。

如果您需要我们整编企业管理实操案例、制度、报表、合同模板等，请您在微信公众账号中搜索"bangwannet"或者"傍晚"，或用微信扫描左边二维码，即可添加关注，点资源下载直接获取。

生成海报

ChatGPT、文心一言这类大模型到底要消耗多少GPU？

ChatGPT训练阶段的算力消耗

起底ChatGPT账号生意：成本3块卖30 有人月赚20万

国产ChatGPT命名图鉴

利用Chatgpt变现的11种方法

ChatGPT到底是什么，一篇文章给你讲清楚

ChatGPT回答：有什么行业是不容易发财的？

相关推荐