实现

SWA 实现也非常简单，PyTorch 提供了简单的 API 来帮我们实现 SWA 训练：

torch.optim.swa_utils.AveragedModel 用于创建 SWA 模型，类方法 update_parameters 用于更新 SWA 模型的权重（均值操作），update_bn 用于更新 BN 层的统计量。
torch.optim.swa_utils.SWALR 是一个 Scheduler，用于在 SWA 训练的过程中调整学习率。

下面是作者常用的 SWA 的代码片段，涵盖了整片文章的全部内容：

from torch.optim.swa_utils import AveragedModel, SWALR

SWA_START_EPOCH = 80

model = ...
train_loader = ...
val_loader = ...

optimizer = SGD(model.parameters(), lr=0.03)
scheduler = OneCycle(optimizer)

# 创建 SWA 模型和用于 SWA 的 Scheduler，注意 Scheduler 需要仔细设置 swa_lr 和 anneal_epochs 这两个参数
# 与官方的例子不同的是，这里把 anneal_epochs 设置为了一个 epoch 的迭代数，然后 `step()` 的调用是在每个迭代
# 中进行，而不是官方的每个 epoch 完了之后进行
swa_model = AveragedModel(model)
swa_scheduler = SWALR(optimizer, swa_lr=1e-5, anneal_epochs=len(train_loader))

for epoch in range(100):
    swa_enabled = epoch > SWA_START_EPOCH
    _scheduler = swa_scheduler if swa_enabled else scheduler
        
    # 训练原始模型
    model.train()
    for inputs, targets in train_loader:
        loss = compute_loss(model(batch), targets)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        _scheduler.step()

    # 更新 SWA 模型权重，并同时也更新 BN
    if swa_enabled:
        swa_model.update_parameters(model)
        swa_model.update_bn(train_loader)

    # 验证，如果开启了 SWA 则使用 SWA 模型来做推断
    val_model = swa_model if swa_enabled else model
    val_model.eval()
    loss = 0
    for inputs, targets in val_loader:
        loss += compute_loss(model(batch), targets)
    print(f"val loss: {loss / len(val_loader):.2f})

PyTorch SWA

推荐的实践方式

实现