PACMAN 试验室探究大模子扩散式磨炼零星再出新下场 。清华
2023 年 7 月 ,宣告现高清华大学合计机系 PACMAN 试验室宣告浓密大模子磨炼零星 SmartMoE,键实反对于用户一键实现 MoE 模子扩散式磨炼 ,密大模扩磨炼经由自动搜查重大并行策略 ,散式抵达开源 MoE 磨炼零星争先功能。清华同时 ,宣告现高PACMAN 试验室在国内顶级零星团聚 USENIX ATC’23 宣告长文 ,键实作者搜罗博士生翟明书 、密大模扩磨炼何家傲等,散式通讯作者为翟季冬教授。清华PACMAN 试验室在机械学习零星规模不断深入钻研,宣告现高SmartMoE 是键实继 FastMoE, FasterMoE 以及 “八卦炉” 后在大模子扩散式磨炼零星上的又一次探究。欲清晰更多相关下场可魔难翟季冬教授首页 :https://pacman.cs.tsinghua.edu.cn/~zjd
Mixture-of-Experts (MoE) 是密大模扩磨炼一种模子浓密化技术 ,因其高效扩展大模子参数目的散式特色而备受钻研者关注 。为了后退 MoE 模子的易用性、优化 MoE 模子磨炼功能 ,PACMAN 试验室在 MoE 大模子磨炼零星上妨碍了零星深入的钻研 。2021 年初,开源宣告了 FastMoE 零星,它是第一个基于 PyTorch 的 MoE 扩散式磨炼零星开源实现 ,在业界发生了较大的影响力 。进一步,为了处置专家并行的浓密 、动态合计方式带来的严正功能下场,FasterMoE 零星地合成、优化了专家并行策略 。FasterMoE 中妄想的「影子专家」技术清晰缓解了负载不均下场、通讯 - 合计协同调解算法实用潜在了 all-to-all 通讯的高延迟。FasterMoE 下场宣告在 PPoPP’22 国内团聚 。
论文地址:https://www.usenix.org/system/files/atc23-zhai.pdf
名目地址:https://github.com/zms1999/SmartMoE
MoE 模子碰着的难题
差距于浓密模子直接经由增大模子尺寸实现扩展,如图一所示,MoE 技术经由将一个小模子转变为多个浓密激活的小模子实现参数扩展。由于各个专家在磨炼时浓密激活 ,MoE 模子患上以在不削减每一轮迭代合计量的条件下削减模子参数目;从而有望在相同磨炼光阴内取患上更强的模子能耐 。
为了实现 MoE 大模子的扩散式磨炼 ,业界提出了专家并行(Expert Parallelism)技术。如图二所示,各个专家被扩散式地存储在差距节点上 ,在磨炼历程中经由 all-to-all 通讯将磨炼数据发送至对于应专家地址节点。专家并行相较于数据并行(Data Parallelism)有更小的内存开销 ,由于专家参数无冗余存储。可能以为专家并行是一种针对于 MoE 妄想的模子并行(Model Parallelism)。