大模型的参数175B是如何算出来的?
-
GPT-3 175B 的模型架构如下:
编码器层数:96
解码器层数:0(GPT-3 是一个单向语言模型,没有解码器)
隐藏层大小:12288
注意力头数:96
注意力头维度:128
嵌入维度:12288
输出维度:50257(词汇表大小)
Dropout 比例:0.1根据这些信息,我们可以计算出 GPT-3 175B 的各个部分的参数量如下:
编码器自注意力层参数量:150,994,944∗96=14,495,514,624
编码器前馈网络层参数量:(12288∗12288+12288)∗2∗96=28,991,029,248
编码器总参数量:14,495,514,624+28,991,029,248=43,486,543,872
解码器总参数量:0
嵌入层参数量:50257∗12288=617,388,032
输出层参数量:50257∗12288=617,388,032
模型总参数量:43,486,543,872+0+617,388,032+617,388,032=44,721,319,936这个结果和 GPT-3 论文中给出的结果相符合1。因此,我们可以得出结论,175B 是由模型的所有参数的数量得到的,而不是由某一部分的乘积得到的。
这是bing回答的,有可能不准确,但是大概意思就是这个。学习了。
-
chatglm-6B:
其次,ChatGLM-6B 的模型架构如下:解码器层数:48
隐藏层大小:6144
注意力头数:48
注意力头维度:128
嵌入维度:6144
输出维度:50257(词汇表大小)
Dropout 比例:0.1然后,根据这些信息,我们可以计算出 ChatGLM-6B 的各个部分的参数量如下:
解码器自注意力层参数量:(6144∗128+128)∗48∗48=2,260,172,800
解码器前馈网络层参数量:(6144∗6144+6144)∗2∗48=2,865,274,880
解码器总参数量:2,260,172,800+2,865,274,880=5,125,447,680
嵌入层参数量:50257∗6144=308,719,616
输出层参数量:50257∗6144=308,719,616
模型总参数量:5,125,447,680+308,719,616+308,719,616=5,742,886,912这个结果和 ChatGLM-6B 的论文中给出的结果相符合1。因此,我们可以得出结论,ChatGLM-6B 的参数 6B 是由模型的所有参数的数量得到的。