任务详情
对BERT-base模型使用fp4/log4数据类型混合量化,量化后的模型推理准确度下降程度小于1 %。 2.技术内容: 1) 需要量化BERT-base模型中每一个Transformer block(一共12个); 2)每一个Transformer block中,需要量化生成QKV矩阵的权重矩阵WQ/WK/WV和输入token矩阵,输入token的数据类型要求fp8或fp16,权重的数据类型要求fp4; 3)每一个Transformer block中,FFN层、proj层的输入量化为fp8或fp16,权重量化为fp4; 4)每一个Transformer block中的每一个自注意