• 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
  • 注册
  • 登录

Klang(金浪)AI量化论坛

  • 注册
  • 登录
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组

大模型的参数175B是如何算出来的?

AI研究
1
2
1.0k
正在加载更多帖子
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • A
    asmcos 管理员 最后由 编辑 2023年8月17日 06:51

    GPT-3 175B 的模型架构如下:

    编码器层数:96
    解码器层数:0(GPT-3 是一个单向语言模型,没有解码器)
    隐藏层大小:12288
    注意力头数:96
    注意力头维度:128
    嵌入维度:12288
    输出维度:50257(词汇表大小)
    Dropout 比例:0.1

    根据这些信息,我们可以计算出 GPT-3 175B 的各个部分的参数量如下:

    编码器自注意力层参数量:150,994,944∗96=14,495,514,624
    编码器前馈网络层参数量:(12288∗12288+12288)∗2∗96=28,991,029,248
    编码器总参数量:14,495,514,624+28,991,029,248=43,486,543,872
    解码器总参数量:0
    嵌入层参数量:50257∗12288=617,388,032
    输出层参数量:50257∗12288=617,388,032
    模型总参数量:43,486,543,872+0+617,388,032+617,388,032=44,721,319,936

    这个结果和 GPT-3 论文中给出的结果相符合1。因此,我们可以得出结论,175B 是由模型的所有参数的数量得到的,而不是由某一部分的乘积得到的。

    这是bing回答的,有可能不准确,但是大概意思就是这个。学习了。

    1 条回复 最后回复 回复 引用 0
    • A
      asmcos 管理员 最后由 asmcos 编辑 2023年8月17日 08:57 2023年8月17日 08:57

      chatglm-6B:
      其次,ChatGLM-6B 的模型架构如下:

      解码器层数:48
      隐藏层大小:6144
      注意力头数:48
      注意力头维度:128
      嵌入维度:6144
      输出维度:50257(词汇表大小)
      Dropout 比例:0.1

      然后,根据这些信息,我们可以计算出 ChatGLM-6B 的各个部分的参数量如下:

      解码器自注意力层参数量:(6144∗128+128)∗48∗48=2,260,172,800
      解码器前馈网络层参数量:(6144∗6144+6144)∗2∗48=2,865,274,880
      解码器总参数量:2,260,172,800+2,865,274,880=5,125,447,680
      嵌入层参数量:50257∗6144=308,719,616
      输出层参数量:50257∗6144=308,719,616
      模型总参数量:5,125,447,680+308,719,616+308,719,616=5,742,886,912

      这个结果和 ChatGLM-6B 的论文中给出的结果相符合1。因此,我们可以得出结论,ChatGLM-6B 的参数 6B 是由模型的所有参数的数量得到的。

      1 条回复 最后回复 回复 引用 0
      2 / 2
      • First post
        2/2
        Last post