783阅读
2回复

[智能应用]字节开源MoE关键优化技术，训练成本再砍40%！内部万卡集群已部署 [复制链接]

上一主题下一主题查看指定楼层

在线姜谷粉丝

UID: 1569053

精华: 2
职务: 山庄囚徒
级别: 玉清道君

发帖: 165308

金币: 471136

道行: 20030

原创: 766

奖券: 350

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 20200(小时)
注册时间: 2012-06-21
最后登录: 2025-12-14

只看楼主正序阅读使用道具楼主发表于: 03-11

— 本帖被兵马大元帅执行加亮操作(2025-03-13) —

用户被禁言,该主题自动屏蔽!

山庄提示：道行不够，道券不够？---☆点此充值☆

分享到 淘江湖新浪 QQ微博 QQ空间开心人人豆瓣网易微博百度鲜果白社会飞信

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 210687

金币: 601860

道行: 2006

原创: 2438

奖券: 3180

斑龄: 40

道券: 1167

获奖: 0

座驾

设备

摄影级

在线时间: 46276(小时)
注册时间: 2008-10-01
最后登录: 2025-12-14

只看该作者板凳发表于: 03-11

字节跳动豆包团队开源COMET技术，助力MoE架构优化

3月10日晚间，字节跳动豆包大模型团队宣布开源一项针对MoE（Mixture of Experts）架构的关键优化技术——COMET。这项技术旨在解决MoE架构在分布式训练中存在的大量跨设备通信开销问题，从而显著提升大模型的训练效率并降低成本。

MoE架构面临的挑战

MoE架构是当前大模型的主流架构之一，它通过将模型划分为多个专家模块，每个模块负责处理数据的一部分，从而实现高效的并行计算。然而，这种架构在分布式训练中面临一个主要挑战：大量的跨设备通信开销。以海外主流模型Mixtral-8x7B为例，其训练过程中通信时间占比可高达40%，这严重制约了大模型训练的效率和成本。

COMET技术的创新点

为了应对这一挑战，字节跳动内部研发了COMET计算-通信重叠技术。COMET通过多项创新，大幅压缩了MoE专家通信的空转时间。具体来说，COMET从系统层面建立了面向MoE的细粒度流水线编程方式，引入了共享张量依赖解析和自适应负载分配两项关键机制，解决了通信与计算之间的粒度错配问题，并精准平衡了通信与计算负载。

性能提升与应用潜力

引入COMET后，单个MoE层上可实现1.96倍的加速，端到端平均效率提升达1.71倍。并且，COMET在不同并行策略、输入规模及硬件环境下均表现出稳定的性能。由于其简洁、通用的设计理念，COMET以5/5/5/4的高分入选全球机器学习系统顶级会议MLSys 2025，被认为“在大规模生产环境中极具应用潜力”。

与其他优化方案的兼容性

值得注意的是，COMET与DeepSeek近期开源的DualPipe等MoE优化方案可以联合使用。COMET采用计算-通信融合算子的优化方式，而DualPipe则通过排布算子来掩盖通信。这两种方案并不冲突，结合使用或将更大幅度压缩模型训练成本。

开源与生态系统支持

目前，COMET支持多种MoE并行模式，部署灵活、方便。同时，COMET核心代码已开源，并向开发者提供了一套友好的Python API，计划兼容Triton等编译生态。这将进一步促进MoE架构在大模型训练中的广泛应用。

结论

字节跳动豆包团队开源的COMET技术为MoE架构的优化提供了新的解决方案。通过大幅压缩通信开销并提升计算效率，COMET不仅能够显著降低大模型的训练成本，还为大规模生产环境中的应用提供了强有力的支持。随着这项技术的推广和应用，我们有理由相信，MoE架构将在未来的AI发展中发挥越来越重要的作用。