text embedding模型量化 #289

Data-Adventure · 2025-03-04T08:44:57Z

我有一个text embedding模型，目前我使用非量化的fp精度，可以导出.rknn模型，但是还想进一步进行int8或者w8a8量化。请问该如何进行呢？

yuyun2000 · 2025-03-04T08:47:04Z

建议放弃

yuyun2000 · 2025-03-04T08:48:43Z

不过我也试过，大多数层都是正常的，你要尝试可以输入npy量化试试，也可以只量化中间的linear看看

Data-Adventure · 2025-03-04T11:53:46Z

不过我也试过，大多数层都是正常的，你要尝试可以输入npy量化试试，也可以只量化中间的linear看看

谢谢解答，我会试试看输入npy量化的，不过当前我遇到的问题是，npy如何组织？因为这个模型输入分别为：input_ids、attention_mask、token_type_ids，我需要将语句预处理成这三个，然后再组成npy么？

yuyun2000 · 2025-03-04T11:55:35Z

是的，支持多npy输入进行量化，具体看文档示例

Data-Adventure · 2025-03-04T11:58:35Z

是的，支持多npy输入进行量化，具体看文档示例

好的，感谢支持，我会实验一下看看结果

Provide feedback