LLM_api_server

简介

LLM_api_server 例程是一个基于BM1684X构建的一个类Openai_api的LLM服务，目前支持ChatGLM3、Qwen、Qwen1.5、Qwen2。

特性

支持BM1684X(PCIe、SoC)、BM1688(SoC)
支持openai库进行调用
支持web接口调用

1. 工程目录

LLM_api_server
├── models
│   ├── BM1684X
│   │   ├── chatglm3-6b_int4.bmodel                # BM1684X chatglm3-6b模型
│   │   ├── qwen2-7b_int4_seq512_1dev.bmodel       # BM1684X qwen2-7b模型	
├── python
│   ├── utils                         # 工具库
│   ├── api_server.py                 # 服务启动程序
│   └── config.yaml                   # 服务配置文件
│   └── request.py                    # 请求示例程序
│   └── requirements.txt              # python依赖
└── scripts
    ├── download_model.sh       # 模型下载脚本
    ├── download_tokenizer.sh   # tokenizer下载脚本

2. 准备模型与数据

# 安装unzip，若已安装请跳过，非ubuntu系统视情况使用yum或其他方式安装
sudo apt install unzip
chmod -R +x scripts/

# 下载tokenizer
./scripts/download_tokenizer.sh 

# 下载模型文件
./scripts/download_model.sh

3. 例程

Python例程

4. 性能测试

模型性能可参考sophon-demo/sample对应的模型仓库。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

LLM_api_server

目录

简介

特性

1. 工程目录

2. 准备模型与数据

3. 例程

4. 性能测试

Files

README.md

Latest commit

History

README.md

File metadata and controls

LLM_api_server

目录

简介

特性

1. 工程目录

2. 准备模型与数据

3. 例程

4. 性能测试