Klang(金浪)AI量化论坛

    • 注册
    • 登录
    • 版块
    • 最新
    • 标签
    • 热门
    • 用户
    • 群组

    大模型的参数175B是如何算出来的?

    AI研究
    1
    2
    868
    正在加载更多帖子
    • 从旧到新
    • 从新到旧
    • 最多赞同
    回复
    • 在新帖中回复
    登录后回复
    此主题已被删除。只有拥有主题管理权限的用户可以查看。
    • A
      asmcos 管理员 最后由 编辑

      GPT-3 175B 的模型架构如下:

      编码器层数:96
      解码器层数:0(GPT-3 是一个单向语言模型,没有解码器)
      隐藏层大小:12288
      注意力头数:96
      注意力头维度:128
      嵌入维度:12288
      输出维度:50257(词汇表大小)
      Dropout 比例:0.1

      根据这些信息,我们可以计算出 GPT-3 175B 的各个部分的参数量如下:

      编码器自注意力层参数量:150,994,944∗96=14,495,514,624
      编码器前馈网络层参数量:(12288∗12288+12288)∗2∗96=28,991,029,248
      编码器总参数量:14,495,514,624+28,991,029,248=43,486,543,872
      解码器总参数量:0
      嵌入层参数量:50257∗12288=617,388,032
      输出层参数量:50257∗12288=617,388,032
      模型总参数量:43,486,543,872+0+617,388,032+617,388,032=44,721,319,936

      这个结果和 GPT-3 论文中给出的结果相符合1。因此,我们可以得出结论,175B 是由模型的所有参数的数量得到的,而不是由某一部分的乘积得到的。

      这是bing回答的,有可能不准确,但是大概意思就是这个。学习了。

      1 条回复 最后回复 回复 引用 0
      • A
        asmcos 管理员 最后由 asmcos 编辑

        chatglm-6B:
        其次,ChatGLM-6B 的模型架构如下:

        解码器层数:48
        隐藏层大小:6144
        注意力头数:48
        注意力头维度:128
        嵌入维度:6144
        输出维度:50257(词汇表大小)
        Dropout 比例:0.1

        然后,根据这些信息,我们可以计算出 ChatGLM-6B 的各个部分的参数量如下:

        解码器自注意力层参数量:(6144∗128+128)∗48∗48=2,260,172,800
        解码器前馈网络层参数量:(6144∗6144+6144)∗2∗48=2,865,274,880
        解码器总参数量:2,260,172,800+2,865,274,880=5,125,447,680
        嵌入层参数量:50257∗6144=308,719,616
        输出层参数量:50257∗6144=308,719,616
        模型总参数量:5,125,447,680+308,719,616+308,719,616=5,742,886,912

        这个结果和 ChatGLM-6B 的论文中给出的结果相符合1。因此,我们可以得出结论,ChatGLM-6B 的参数 6B 是由模型的所有参数的数量得到的。

        1 条回复 最后回复 回复 引用 0
        • First post
          Last post