QA-LoRA

QLoRA主要用于减少finetuning时的memory cost，相较于LoRA，它的性能没有优势，但是QLoRA在进行推理时，有需要把AB两个高精度表示的矩阵融合到低位宽的权重中，导致最终融合的权重表示为高位宽，并不能满足量化的约束。

实验结果对比，比QLoRA差一点，也算正常