我們剛剛合併了對 LeRobot 中的參數高效微調(🤗PEFT)的支持。 這意味著您現在可以使用像低秩適配器(LoRA)這樣的方法來訓練您的預訓練策略,例如 Pi0 和 SmolVLA。
這有兩個好處:1. 對於像 SmoLVLA 這樣的小型政策,您可以使用更高的批次大小和學習率來加快收斂速度。2. 對於像 Pi0 這樣的大型政策,使用 PEFT 進行訓練可以在訓練過程中使用更少的 VRAM。
45