RAG实操教程:使用LangChain + Llama2 打造你的个人LLM

时间:2024-10-17 14:44:09

RAG实操教程:使用LangChain + Llama2 打造你的个人LLM

RAG实操教程:使用LangChain + Llama2 打造你的个人LLM_API

本文将逐步指导您创建自己的RAG(检索增强生成)系统,使您能够上传自己的PDF文件并向LLM询问有关PDF的信息。本教程侧重于图中蓝色部分,即暂时不涉及Gradio(想了解已接入Gradio的,请参考官网)。相关技术栈包括以下内容:

  1. LLM: Llama2
  2. LLM API: llama.cpp service
  3. Langchain:
  4. Vector DB: ChromaDB
  5. Embeding: sentence-Tranformers

核心在于 Langchain,它是用于开发由语言模型支持的应用程序的框架。LangChain 就像胶水一样,有各种接口可以连接LLM模型与其他工具和数据源,不过现在 LangChain 正在蓬勃发展中,许多文件或API改版很多。以下我使用最简单的方式示范。

步骤1. 环境设置

首先设置 Python 环境,我使用 conda 创建环境,并安装以下库,我在 Jupyter 环境完成示例。

# python=3.9
ipykernel
ipywidgets
langchain
PyMuPDF
chromadb
sentence-transformers
llama-cpp-python

步骤2. 读入文件处理并导入数据库

RAG实操教程:使用LangChain + Llama2 打造你的个人LLM_Google_02

首先我们要将外部信息处理后,放到 DB 中,以供之后查询相关知识,这边的步骤对应到上图框起来的部分,也就是橘色的 1. 文本拆分器 和 2. embedding。

a). 使用文件加载器

Langchain 提供了很多文件加载器,总共大约有55种,包括word、csv、PDF、GoogleDrive、Youtube等,使用方法也很简单。这里我创建了一个虚拟人物 Alison Hawk 的 PDF 信息,并使用read in,Alison Hawk 的 PDF 信息。请注意需要安装 PyMuPDFLoader 才能使用。PyMuPDFLoader PyMuPDF

from langchain.document_loaders import PyMuPDFLoader
loader = PyMuPDFLoader("LangChain/Virtual_characters.pdf")
PDF_data = loader.load()

文本分割器会将文档或文字分割成一个个 chunk,用以预防文档的信息超过 LLM 的 tokens,有一些研究在探讨如何将 chunk 优化。我们后续文章中讨论。

这两种常用的工具之间的区别在于,如果块大小超过指定阈值,它们会递归地将文本分割为更小的块。LangChain提供这两种方式,并且主要参数如下:

- RecursiveCharacterTextSplitter 
- CharacterTextSplitter
  • chunk size:决定分割文字时每个内存块中的最大字元数。它指定每个内存块的大小或长度。
  • chunk_overlap:决定分割文字时连续内存块之间重叠的字元数。它指定前一个内存块的多少应包含在下一个内存块中。
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=5)
all_splits = text_splitter.split_documents(PDF_data)

在上面的代码中我们指定chunk_size=100, chunk_overlap=5, 这样的意思就是我们每块的文档中是 100 个字符,chunk_overlap 表示字符重复的个数,这样可以避免语义被拆分后不完整。

c) 加载嵌入模型

然后使用嵌入将步骤(b)分割的块文本转换为向量,LangChain提供了许多嵌入模型的接口,例如OpenAICohereHugging FaceWeaviate等,请参考LangChain官网。

这边我使用Hugging FaceSentence Transformers,它提供了许多种pretrain模型,可以根据你的需求或应用情境选择,我选择,其他model细节可以看到HuggingFace。注意要先安装才能使用。all-MiniLM-L6-v2sentence-Tranformers

from langchain.embeddings import HuggingFaceEmbeddings
model_name = "sentence-transformers/all-MiniLM-L6-v2"
model_kwargs = {'device': 'cpu'}
embedding = HuggingFaceEmbeddings(
  model_name=model_name,
  model_kwargs=model_kwargs
)

d) 将Embedding结果保养到VectorDB向量库

我们会将嵌入后的结果存储在VectorDB中,常见的VectorDB包括ChromaPineconeFAISS等,这里我使用Chroma来实现。ChromaLangChain整合得很好,可以直接使用 LangChain的接口进行操作。

# embed 并存储文本
# 指定 persist_directory 将会把嵌入存储到磁盘上。
from langchain.vectorstores import Chroma
persist_directory = 'db'
vectordb = Chroma.from_documents(documents=all_splits, embedding=embedding, persist_directory=persist_directory)

步骤3. 启用LLM服务

RAG实操教程:使用LangChain + Llama2 打造你的个人LLM_LLM_03

你可以通过两种方法启动LLM模型并连接到LangChain。一种是使用LangChainLlamaCpp接口来实现,这时由LangChain帮助你启动llama2服务;另一种方法是用其他方式搭建Llama2API服务,例如使用llama.cpp的服务器启动API服务等。

a).使用LangChain的LlamaCpp

使用LlamaCpp接口加载model,它会帮你启动Llama的服务,这方法较简单,直接使用下面code就可以执行,model_pat指定到你的模型中,例子中我使用量化过后的Llama2 Chat。注意这边要安装llama-cpp-python

from langchain.callbacks.manager import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain_community.llms import LlamaCpp
model_path = "llama.cpp/models/llama-2-7b-chat/llama-2_q4.gguf"

llm = LlamaCpp(
    model_path=model_path,
    n_gpu_layers=100,
    n_batch=512,
    n_ctx=2048,
    f16_kv=True,
    callback_manager=CallbackManager([StreamingStdOutCallbackHandler()]),
    verbose=True,
)

RAG实操教程:使用LangChain + Llama2 打造你的个人LLM_LLM_04

您可以尝试进行测试,看看 llm 服务是否已启动:

llm("What is China known for?")

RAG实操教程:使用LangChain + Llama2 打造你的个人LLM_Google_05

b). 使用 API 服务

如果你已经使用其他方式架设 LLMAPI 服务,或者是使用 openai 的 API 的话,你需要使用 LangChainChatOpenAI 接口。我这边示范是 llama.cppserver 服务,它提供了类别 OpenAI 的API,因此我们能直接用同个接口来操作,以下是该接口的一些相关参数:

open_ai_key:由于并没有使用真正的 OpenAI API,因此可以随意填写。 openai_api_base:为模型API的Base URL max_tokens:规范模型回答的长度

from langchain.chat_models import ChatOpenAI
#---
llm = ChatOpenAI(openai_key='None', openai_api_base='http://127.0.0.1:8080/v1')

步骤4.设定你的Prompt

一些LLM可以使用特定的Prompt。例如,Llama可使用特殊token。我们可以使用ConditionalPromptSelector根据模型类型设定Prompt,如以下:

from langchain.chains import LLMChain
from langchain.chains.prompt_selector import ConditionalPromptSelector
from langchain.prompts import PromptTemplate

DEFAULT_LLAMA_SEARCH_PROMPT = PromptTemplate(
    input_variables=["question"],
    template="""<<SYS>> \n You are an assistant tasked with improving Google search \
results. \n <</SYS>> \n\n [INST] Generate THREE Google search queries that \
are similar to this question. The output should be a numbered list of questions \
and each should have a question mark at the end: \n\n {question} [/INST]""",
)

DEFAULT_SEARCH_PROMPT = PromptTemplate(
    input_variables=["question"],
    template="""You are an assistant tasked with improving Google search \
results. Generate THREE Google search queries that are similar to \
this question. The output should be a numbered list of questions and each \
should have a question mark at the end: {question}""",
)

QUESTION_PROMPT_SELECTOR = ConditionalPromptSelector(
    default_prompt=DEFAULT_SEARCH_PROMPT,
    conditionals=[(lambda llm: isinstance(llm, LlamaCpp), DEFAULT_LLAMA_SEARCH_PROMPT)],
)

prompt = QUESTION_PROMPT_SELECTOR.get_prompt(llm)

使用LLMChain将提示与llm连接在一起,另外LangChain最近的更新采用了新的方式,当看到其他文章中使用时请注意。

llm_chain = LLMChain(prompt=prompt, llm=llm)
question = "What is china known for?"
llm_chain.invoke({"question": question})

步骤5. 文本检索 + 查询LLM

RAG实操教程:使用LangChain + Llama2 打造你的个人LLM_llama2_06

我们已经将 PDF 信息导入 DB,并启动了 LLM 服务,接下来要连接整个 RAG 步骤:

  • 用户发送 QA
  • 从 DB 中检索文本
  • 将 QA 与检索的文本结合发给 LLM
  • LLM 基于信息进行回答

首先要创建 Retriever,它可以根据非结构化的 QA 返回相应文件,LangChain 提供了多种方式,并整合第三方工具,目前有许多研究探讨如何基于 QA 查找对应文件。

retriever = vectordb.as_retriever()

qa = RetrievalQA.from_chain_type(
    llm=llm, 
    chain_type="stuff", 
    retriever=retriever, 
    verbose=True
)

步骤6.使用你的RAG

RAG实操教程:使用LangChain + Llama2 打造你的个人LLM_Google_07

到这里我们就串好整个RAG的流程,接下来我们来问问Alison Hawk的信息(PDF纪录的虚拟人物名称)

query = "Tell me about Alison Hawk's career and age"
qa.invoke(query)

LLM已经获取了从数据库中取得的Alison Hawk上传的PDF文件,并且知道她是一位28岁的研究员。

Jupyter 代码

from langchain.document_loaders import PyMuPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.llms import LlamaCpp
from langchain.chains import RetrievalQA
loader = PyMuPDFLoader("Virtual_characters.pdf")
PDF_data = loader.load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=5)
all_splits = text_splitter.split_documents(PDF_data)
# embedding 并存储文本
# 提供一个持久性目录将会将embed保存在磁盘上
persist_directory = 'db'
model_name = "sentence-transformers/all-MiniLM-L6-v2"
model_kwargs = {'device': 'cpu'}
embedding = HuggingFaceEmbeddings(model_name=model_name,
                                  model_kwargs=model_kwargs)

vectordb = Chroma.from_documents(documents=all_splits, embedding=embedding, persist_directory=persist_directory)
from langchain.callbacks.manager import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain_community.llms import LlamaCpp

llm = LlamaCpp(
    model_path="llama-2_q4.gguf",
    n_gpu_layers=100,
    n_batch=512,
    n_ctx=2048,
    f16_kv=True,
    callback_manager=CallbackManager([StreamingStdOutCallbackHandler()]),
    verbose=True,
)
from langchain.chains import LLMChain
from langchain.chains.prompt_selector import ConditionalPromptSelector
from langchain.prompts import PromptTemplate

DEFAULT_LLAMA_SEARCH_PROMPT = PromptTemplate(
    input_variables=["question"],
    template="""<<SYS>> 
    You are a helpful assistant eager to assist with providing better Google search results.
    <</SYS>> 
    
    [INST] Provide an answer to the following question in 150 words. Ensure that the answer is informative, \
            relevant, and concise:
            {question} 
    [/INST]""",
)

DEFAULT_SEARCH_PROMPT = PromptTemplate(
    input_variables=["question"],
    template="""You are a helpful assistant eager to assist with providing better Google search results. \
        Provide an answer to the following question in about 150 words. Ensure that the answer is informative, \
        relevant, and concise: \
        {question}""",
)

QUESTION_PROMPT_SELECTOR = ConditionalPromptSelector(
    default_prompt=DEFAULT_SEARCH_PROMPT,
    conditionals=[(lambda llm: isinstance(llm, LlamaCpp), DEFAULT_LLAMA_SEARCH_PROMPT)],
)

prompt = QUESTION_PROMPT_SELECTOR.get_prompt(llm)
prompt
llm_chain = LLMChain(prompt=prompt, llm=llm)
question = "What is * known for?"
llm_chain.invoke({"question": question})
retriever = vectordb.as_retriever()

qa = RetrievalQA.from_chain_type(
    llm=llm, 
    chain_type="stuff", 
    retriever=retriever, 
    verbose=True
)
query = "Tell me about Alison Hawk's career and age"
qa.invoke(query)