LLM_api_server 例程是一个基于BM1684X构建的一个类Openai_api的LLM服务,目前支持ChatGLM3、Qwen、Qwen1.5、Qwen2。
- 支持BM1684X(PCIe、SoC)、BM1688(SoC)
- 支持openai库进行调用
- 支持web接口调用
LLM_api_server
├── models
│ ├── BM1684X
│ │ ├── chatglm3-6b_int4.bmodel # BM1684X chatglm3-6b模型
│ │ ├── qwen2-7b_int4_seq512_1dev.bmodel # BM1684X qwen2-7b模型
├── python
│ ├── utils # 工具库
│ ├── api_server.py # 服务启动程序
│ └── config.yaml # 服务配置文件
│ └── request.py # 请求示例程序
│ └── requirements.txt # python依赖
└── scripts
├── download_model.sh # 模型下载脚本
├── download_tokenizer.sh # tokenizer下载脚本
# 安装unzip,若已安装请跳过,非ubuntu系统视情况使用yum或其他方式安装
sudo apt install unzip
chmod -R +x scripts/
# 下载tokenizer
./scripts/download_tokenizer.sh
# 下载模型文件
./scripts/download_model.sh
模型性能可参考sophon-demo/sample对应的模型仓库。