🗒️ Lora 微调时的显存占用

LoRA速度可能不会快很多,但是显存开销会非常显著的降低。因为参数冻结❄了,所以梯度,动量这些显存开销大头都不会存储,只有LoRA🔥的极少量参数需要保存这些信息来更新梯度。