AI分布式训

AI分布式训训练库 常见框架 常见分布式训练框架: 第一类:深度学习框架自带分布式训练功能。如:TensorFlow、PyTorch、MindSpore、Oneflow、PaddlePaddle等。 第二类:基于现有深度学习框架(如:PyTorch、Flax)进行扩展和优化,从而进行分布式训练。 如:Megatron-LM(张量并行)、DeepSpeed(Zero-DP)、Colossal-AI(高维模型并行,如2D、2.5D、3D)、Alpa(自动并行)等 LLM 训练/微调工具 ...

December 05, 2025 · 60 min · 29560 words · Ringi Lee