routerz-loss模型的重要性( 二 )
接下来 , 他们研究了即将进入router的logit上的约束 。router以float32计算专家的概率分布 。然而 , 研究者发现 , 在最大的规模下 , 这不足以带来可靠的训练结果 。为了解决这个问题 , 他们引入了routerz-loss ,
其中 , B是token的数目 , N是专家数 , x∈RB×N是将要进入router的logit 。
下表4显示 , 在三次运行中 , updateclipping和routerz-loss都稳定了模型 , 但是updateclipping严重影响了模型的质量 。因此 , 研究者使用z-loss方法来固定模型稳定性 。
文章图片
文章图片
routerz-loss引入了另一个超参数(c_z) , 这是一个加权系数 , 作为优化的总损失的一部分 。总损失是交叉熵损失(crossentropyloss,L_CE)、辅助负载平衡损失(auxiliaryloadbalanceloss,L_B)和routerz-loss(L_Z)的线性加权组合 。
文章图片
文章图片
基于用超参数扫描进行预训练后的最佳模型质量 , 研究者选择c_z=0.001的值 。附录B记录了预训练过程中的损失 。
- 全球首个以赛事命名的卫星——“大运号”卫星如何赋能成都大运会,与城市同发展?
- 宇宙的边缘在哪里?光到达地球的边缘在哪里呢
- g胖:那些谈元宇宙的人大多自己都不清楚
- 满10元减9元、大转盘抽奖、好物0元购…有这个银行APP的荆门人恭喜了
- valve:区块链技术本身是精妙的
- 你觉得手机上的内存,多大才够用?
- 全球首个以赛事命名的卫星将在成都发射
- 紫色西红柿,抗氧化剂和花青素的含量都大大提高
- 《张朝阳的物理课》带你理解热力学基本定律
- 8亿活跃买家的拼多多,仅靠低价或已经不够