AI芯片是人工智能的底层基石

科技最前沿科技金融 2023-3-22 13:52 372780人围观

AI人工智能的发展主要依赖两个领域的创新和演进：一是模仿人脑建立起来的数学模型和算法，其次是半导体集成电路AI芯片。AI的发展一直伴随着半导体芯片的演进过程，20世纪90年代，贝尔实验室的杨立昆（Yann LeCun）等人一起开发了可以通过训练来识别手写邮政编码的神经网络，但在那个时期，训练一个深度学习卷积神经网络（Convolutional NeuralNetwork，CNN）需要3天的时间，因此无法实际使用，而硬件计算能力的不足，也导致了当时AI科技泡沫的破灭。

AI芯片是AI发展的底层基石。英伟达早在1999年就发明出GPU，但直到2009年才由斯坦福大学发表论文介绍了如何利用现代GPU远超过多核CPU的计算能力（超过70倍），把AI训练时间从几周缩短到了几小时。算力、模型、数据一直是AI发展的三大要素，而AI芯片所代表的算力则是人工智能的底层基石。

算力硬件层是构成AIGC产业的核心底座，主要包括AI芯片、AI服务器和数据中心。

➢ AI芯片是算力硬件层的基石。AI芯片主要分为CPU、GPU、FPGA和ASIC四类，CPU是AI计算的基础，GPU、FPGA、ASIC作为加速芯片协助CPU进行大规模计算。目前AI芯片主要被国际厂商垄断，根据Counterpoint、IDC数据，Intel和AMD共计占2022年全球数据中心 CPU 市场收入的92.45%，Nvidia占2021年中国加速卡市场份额的80%以上。

➢ AI 服务器是AI芯片的系统集成。AI服务器采用CPU+加速芯片的架构形式，在进行模型的训练和推断时会更具有效率优势。与国外AI芯片厂商的垄断局面不同，中国AI服务器水平位于世界前列。据IDC数据，在2021H1全球 AI 服务器市场竞争格局中，浪潮信息以20.2%的份额排名第一，联想和华为分别以6.1%和4.8%的份额位列第四、五名。

➢ 数据中心的计算服务是承接AI算力需求的直接形式。AIGC的模型训练是通常是通过云计算服务完成的，其本质是AIGC模型厂商借助IDC的算力资源，在云端实现模型的训练。目前国内的数据中心厂商主要包括三大运营商、华为、联想、中科曙光等，提供云计算的厂商主要有阿里、腾讯等互联网企业。

ChatGPT单次训练所需算力约27.5PFlop/s-day，单颗NVIDIA V100需计算220天。

➢ 根据OpenAI数据，GPT-3 XL参数规模为13.2亿，训练所需算力为27.5PFlop/s-day。由于ChatGPT是在13亿参数的InstructGPT基础上微调而来，参数量与GPT-3 XL接近，因此预计ChatGPT训练所需算力约为27.5PFlop/s-day。

➢ 以NVIDIA V100芯片为例，一颗NVLink版本V100芯片的深度学习算力为125TFlops，则ChatGPT模型的训练至少需要1颗V100芯片计算220天才能完成。

◼ 随着模型参数的不断增加，模型训练所需算力将进一步提升，将进一步拉动对算力芯片的需求。根据OpenAI数据，随着GPT-3系列模型参数规模由1.25亿增加至1746亿，训练所需算力从2.6PFlop/s-day上升至3640PFlop/s-day，规模参数（1396.8倍）与算力需求（1400倍）呈同比例增长。

ChatGPT单月运营所需算力成本约667万美元。根据Fortune数据，每次用户与ChatGPT互动产生的算力云服务成本约0.01美元。Similarweb数据显示，2023年1月ChatGPT访问量达6.67亿次，因此我们粗略推算2023年1月ChatGPT运营算力成本约为667万美元。此外，2023年1月ChatGPT访问量环比增长119.4%，用户访问量的激增导致ChatGPT发生了因云算力不足而宕机的情况。据OpenAI数据，1月ChatGPT重大停机（Major outage）时长为5小时30分钟，部分停机（Partial outage）16小时21分钟，运营算力不足已经开始影响ChatGPT的稳定性和响应速度。