Update 02-Qwen2-beta-4B-Chat 接入langchain搭建知识库助手.md

zhenhua32 · Feb 5, 2024 · 6c14e3a · 6c14e3a
1 parent 9647269
commit 6c14e3a
Showing 1 changed file with 1 addition and 218 deletions.
diff --git a/Qwen2/02-Qwen2-beta-4B-Chat 接入langchain搭建知识库助手.md b/Qwen2/02-Qwen2-beta-4B-Chat 接入langchain搭建知识库助手.md
@@ -22,32 +22,6 @@ pip install -U huggingface_hub
 
 ## 模型下载
 
-在已完成 Qwen2-beta-4B-Chat 部署的基础上，我们还需要还需要安装以下依赖包。
-请在终端复制粘贴以下命令，并回车运行：
-
-```shell
-pip install langchain==0.0.292
-pip install gradio==4.4.0
-pip install chromadb==0.4.15
-pip install sentence-transformers==2.2.2
-pip install unstructured==0.10.30
-pip install markdown==3.3.7
-```  
-
-同时，我们还需要使用到开源词向量模型 [Sentence Transformer](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2) 。
-
-这里使用 huggingface 镜像下载到本地 /root/autodl-tmp/embedding_model，你也可以选择其它的方式下载。
-
-在 /root/autodl-tmp 路径下新建 download.py 文件并在其中输入以下内容，粘贴代码后请及时保存文件，如下图所示。并运行 `python /root/autodl-tmp/download.py` 执行下载。
-
-```python
-import os
-# 设置环境变量
-os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
-# 下载模型
-os.system('huggingface-cli download --resume-download sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 --local-dir /root/autodl-tmp/embedding_model')
-```
-
 使用 modelscope 中的 snapshot_download 函数下载模型，第一个参数为模型名称，参数 cache_dir 为模型的下载路径。
 
 在 /root/autodl-tmp 路径下新建 model_download.py 文件并在其中输入以下内容，粘贴代码后记得保存文件，如下图所示。并运行 `python /root/autodl-tmp/model_download.py` 执行下载，模型大小为 8 GB，下载模型大概需要 2 分钟。
@@ -60,199 +34,8 @@ import os
 model_dir = snapshot_download('qwen/Qwen2-beta-4B-Chat', cache_dir='/root/autodl-tmp', revision='master')
 ```
 
-## 知识库建设
-
-我们选用以下开源仓库作为知识库来源：
-
-- [sweettalk-django4.2](https://github.com/Joe-2002/sweettalk-django4.2)
-
-首先我们需要将上述远程开源仓库 Clone 到本地，可以使用以下命令：
-
-```shell
-# 进入到数据库盘
-cd /root/autodl-tmp
-# 打开学术资源加速
-source /etc/network_turbo
-# clone 开源仓库
-git clone https://github.com/Joe-2002/sweettalk-django4.2.git
-# 关闭学术资源加速
-unset http_proxy && unset https_proxy
-```
-
-接着，为语料处理方便，我们将选用上述仓库中所有的 markdown、txt 文件作为示例语料库。注意，也可以选用其中的代码文件加入到知识库中，但需要针对代码文件格式进行额外处理。
-
-我们首先将上述仓库中所有满足条件的文件路径找出来，我们定义一个函数，该函数将递归指定文件夹路径，返回其中所有满足条件（即后缀名为 .md 或者 .txt 的文件）的文件路径：
-
-```python
-import os 
-def get_files(dir_path):
-    # args：dir_path，目标文件夹路径
-    file_list = []
-    for filepath, dirnames, filenames in os.walk(dir_path):
-        # os.walk 函数将递归遍历指定文件夹
-        for filename in filenames:
-            # 通过后缀名判断文件类型是否满足要求
-            if filename.endswith(".md"):
-                # 如果满足要求，将其绝对路径加入到结果列表
-                file_list.append(os.path.join(filepath, filename))
-            elif filename.endswith(".txt"):
-                file_list.append(os.path.join(filepath, filename))
-    return file_list
-```
-
-得到所有目标文件路径之后，我们可以使用 LangChain 提供的 FileLoader 对象来加载目标文件，得到由目标文件解析出的纯文本内容。由于不同类型的文件需要对应不同的 FileLoader，我们判断目标文件类型，并针对性调用对应类型的 FileLoader，同时，调用 FileLoader 对象的 load 方法来得到加载之后的纯文本对象：
-
-```python
-from tqdm import tqdm
-from langchain.document_loaders import UnstructuredFileLoader
-from langchain.document_loaders import UnstructuredMarkdownLoader
-
-def get_text(dir_path):
-    # args：dir_path，目标文件夹路径
-    # 首先调用上文定义的函数得到目标文件路径列表
-    file_lst = get_files(dir_path)
-    # docs 存放加载之后的纯文本对象
-    docs = []
-    # 遍历所有目标文件
-    for one_file in tqdm(file_lst):
-        file_type = one_file.split('.')[-1]
-        if file_type == 'md':
-            loader = UnstructuredMarkdownLoader(one_file)
-        elif file_type == 'txt':
-            loader = UnstructuredFileLoader(one_file)
-        else:
-            # 如果是不符合条件的文件，直接跳过
-            continue
-        docs.extend(loader.load())
-    return docs
-```
-
-使用上文函数，我们得到的 docs 为一个纯文本对象对应的列表。
-
-```python
-docs = get_text('/root/autodl-tmp/sweettalk-django4.2')
-```
-
-得到该列表之后，我们就可以将它引入到 LangChain 框架中构建向量数据库。由纯文本对象构建向量数据库，我们需要先对文本进行分块，接着对文本块进行向量化。
-
-LangChain 提供了多种文本分块工具，此处我们使用字符串递归分割器，并选择分块大小为 500，块重叠长度为 150：
-
-```python
-from langchain.text_splitter import RecursiveCharacterTextSplitter
-
-text_splitter = RecursiveCharacterTextSplitter(
-    chunk_size=500, chunk_overlap=150)
-split_docs = text_splitter.split_documents(docs)  
-```  
-
-接着我们选用开源词向量模型  [Sentence Transformer](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2) 来进行文本向量化。
-
-LangChain 提供了直接引入 HuggingFace 开源社区中的模型进行向量化的接口：  
-
-```python
-from langchain.embeddings.huggingface import HuggingFaceEmbeddings
-
-embeddings = HuggingFaceEmbeddings(model_name="/root/autodl-tmp/embedding_model")
-```  
-
-同时，我们选择 Chroma 作为向量数据库，基于上文分块后的文档以及加载的开源向量化模型，将语料加载到指定路径下的向量数据库：  
-
-```python
-from langchain.vectorstores import Chroma
-
-# 定义持久化路径
-persist_directory = 'data_base/vector_db/chroma'
-# 加载数据库
-vectordb = Chroma.from_documents(
-    documents=split_docs,
-    embedding=embeddings,
-    persist_directory=persist_directory  # 允许我们将persist_directory目录保存到磁盘上
-)
-# 将加载的向量数据库持久化到磁盘上
-vectordb.persist()
-```
-
-将上述代码整合在一起为知识库搭建的脚本：
-
-```python
-# 首先导入所需第三方库
-from langchain.document_loaders import UnstructuredFileLoader
-from langchain.document_loaders import UnstructuredMarkdownLoader
-from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain.vectorstores import Chroma
-from langchain.embeddings.huggingface import HuggingFaceEmbeddings
-from tqdm import tqdm
-import os
-
-# 获取文件路径函数
-def get_files(dir_path):
-    # args：dir_path，目标文件夹路径
-    file_list = []
-    for filepath, dirnames, filenames in os.walk(dir_path):
-        # os.walk 函数将递归遍历指定文件夹
-        for filename in filenames:
-            # 通过后缀名判断文件类型是否满足要求
-            if filename.endswith(".md"):
-                # 如果满足要求，将其绝对路径加入到结果列表
-                file_list.append(os.path.join(filepath, filename))
-            elif filename.endswith(".txt"):
-                file_list.append(os.path.join(filepath, filename))
-    return file_list
-
-# 加载文件函数
-def get_text(dir_path):
-    # args：dir_path，目标文件夹路径
-    # 首先调用上文定义的函数得到目标文件路径列表
-    file_lst = get_files(dir_path)
-    # docs 存放加载之后的纯文本对象
-    docs = []
-    # 遍历所有目标文件
-    for one_file in tqdm(file_lst):
-        file_type = one_file.split('.')[-1]
-        if file_type == 'md':
-            loader = UnstructuredMarkdownLoader(one_file)
-        elif file_type == 'txt':
-            loader = UnstructuredFileLoader(one_file)
-        else:
-            # 如果是不符合条件的文件，直接跳过
-            continue
-        docs.extend(loader.load())
-    return docs
-
-# 目标文件夹
-tar_dir = [
-    "/root/autodl-tmp/sweettalk-django4.2",
-]
-
-# 加载目标文件
-docs = []
-for dir_path in tar_dir:
-    docs.extend(get_text(dir_path))
-
-# 对文本进行分块
-text_splitter = RecursiveCharacterTextSplitter(
-    chunk_size=500, chunk_overlap=150)
-split_docs = text_splitter.split_documents(docs)
-
-# 加载开源词向量模型
-embeddings = HuggingFaceEmbeddings(model_name="/root/autodl-tmp/embedding_model")
-
-# 构建向量数据库
-# 定义持久化路径
-persist_directory = 'data_base/vector_db/chroma'
-# 加载数据库
-vectordb = Chroma.from_documents(
-    documents=split_docs,
-    embedding=embeddings,
-    persist_directory=persist_directory  # 允许我们将persist_directory目录保存到磁盘上
-)
-# 将加载的向量数据库持久化到磁盘上
-vectordb.persist()
-```
-
-运行上述脚本，即可在本地构建已持久化的向量数据库，后续直接导入该数据库即可，无需重复构建。
 
-## Qwen2 接入LangChain
+## 代码准备
 
 为便捷构建 LLM 应用，我们需要基于本地部署的 Qwen2-LM，自定义一个 LLM 类，将 Qwen2 接入到 LangChain 框架中。完成自定义 LLM 类之后，可以以完全一致的方式调用 LangChain 的接口，而无需考虑底层模型调用的不一致。