chatglm-6B:
其次,ChatGLM-6B 的模型架构如下:
解码器层数:48
隐藏层大小:6144
注意力头数:48
注意力头维度:128
嵌入维度:6144
输出维度:50257(词汇表大小)
Dropout 比例:0.1
然后,根据这些信息,我们可以计算出 ChatGLM-6B 的各个部分的参数量如下:
解码器自注意力层参数量:(6144∗128+128)∗48∗48=2,260,172,800
解码器前馈网络层参数量:(6144∗6144+6144)∗2∗48=2,865,274,880
解码器总参数量:2,260,172,800+2,865,274,880=5,125,447,680
嵌入层参数量:50257∗6144=308,719,616
输出层参数量:50257∗6144=308,719,616
模型总参数量:5,125,447,680+308,719,616+308,719,616=5,742,886,912
这个结果和 ChatGLM-6B 的论文中给出的结果相符合1。因此,我们可以得出结论,ChatGLM-6B 的参数 6B 是由模型的所有参数的数量得到的。