支持多长输入 TurboMind supports Qwen-7B, dynamic NTK-RoPE scaling and dynamic logN scaling #430

yuanjie-ai · 2023-09-19T03:06:00Z

Motivation

支持多长输入 TurboMind supports Qwen-7B, dynamic NTK-RoPE scaling and dynamic logN scaling

Related resources

支持多长输入 TurboMind supports Qwen-7B, dynamic NTK-RoPE scaling and dynamic logN scaling

Additional context

支持多长输入 TurboMind supports Qwen-7B, dynamic NTK-RoPE scaling and dynamic logN scaling

lvhan028 · 2023-09-25T03:31:39Z

在用 deploy.py 把 qwen-7b 转成 turbomind 要求的权重格式之后，会生成一个配置文件，路径是 workspace/triton_models/weights/config.ini。

把这个配置文件中几个配置项修改为：

max_position_embeddings = 2048
use_dynamic_ntk = 1
use_logn_attn = 1

就能开启外推能力。可以支持到 8K 长度的对话

sjzhou4 · 2023-09-25T10:12:17Z

@lvhan028 hello，感谢你的指导，我再llama2-70B上使用ntk，发现8K的长度是ok的，但是再长，比如到16k，就会有乱码了，请问这个问题怎么处理，使用q_scaling吗？

zhongjiyongshi · 2023-11-14T07:53:56Z

在用 deploy.py 把 qwen-7b 转成 turbomind 要求的权重格式之后，会生成一个配置文件，路径是 workspace/triton_models/weights/config.ini。

把这个配置文件中几个配置项修改为：
max_position_embeddings = 2048
use_dynamic_ntk = 1
use_logn_attn = 1
就能开启外推能力。可以支持到 8K 长度的对话

qwen-7b 8K以上能支持吗？比如32k

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

支持多长输入 TurboMind supports Qwen-7B, dynamic NTK-RoPE scaling and dynamic logN scaling #430

支持多长输入 TurboMind supports Qwen-7B, dynamic NTK-RoPE scaling and dynamic logN scaling #430

yuanjie-ai commented Sep 19, 2023

lvhan028 commented Sep 25, 2023

sjzhou4 commented Sep 25, 2023

zhongjiyongshi commented Nov 14, 2023

支持多长输入 TurboMind supports Qwen-7B, dynamic NTK-RoPE scaling and dynamic logN scaling #430

支持多长输入 TurboMind supports Qwen-7B, dynamic NTK-RoPE scaling and dynamic logN scaling #430

Comments

yuanjie-ai commented Sep 19, 2023

Motivation

Related resources

Additional context

lvhan028 commented Sep 25, 2023

sjzhou4 commented Sep 25, 2023

zhongjiyongshi commented Nov 14, 2023