Skip to content

Latest commit

 

History

History
64 lines (47 loc) · 1.67 KB

File metadata and controls

64 lines (47 loc) · 1.67 KB

LLM_api_server

目录

简介

LLM_api_server 例程是一个基于BM1684X构建的一个类Openai_api的LLM服务,目前支持ChatGLM3、Qwen、Qwen1.5、Qwen2。

特性

  • 支持BM1684X(PCIe、SoC)、BM1688(SoC)
  • 支持openai库进行调用
  • 支持web接口调用

1. 工程目录

LLM_api_server
├── models
│   ├── BM1684X
│   │   ├── chatglm3-6b_int4.bmodel                # BM1684X chatglm3-6b模型
│   │   ├── qwen2-7b_int4_seq512_1dev.bmodel       # BM1684X qwen2-7b模型	
├── python
│   ├── utils                         # 工具库
│   ├── api_server.py                 # 服务启动程序
│   └── config.yaml                   # 服务配置文件
│   └── request.py                    # 请求示例程序
│   └── requirements.txt              # python依赖
└── scripts
    ├── download_model.sh       # 模型下载脚本
    ├── download_tokenizer.sh   # tokenizer下载脚本

2. 准备模型与数据

# 安装unzip,若已安装请跳过,非ubuntu系统视情况使用yum或其他方式安装
sudo apt install unzip
chmod -R +x scripts/

# 下载tokenizer
./scripts/download_tokenizer.sh 

# 下载模型文件
./scripts/download_model.sh 

3. 例程

4. 性能测试

模型性能可参考sophon-demo/sample对应的模型仓库。