Hugging Face(拥抱面孔)
本页面介绍如何在LangChain中使用Hugging Face生态系统(包括Hugging Face Hub)。它分为两个部分:安装和设置,以及对特定Hugging Face包装器的引用。
安装和设置
如果您想使用Hugging Face Hub:
- 使用
pip install huggingface_hub
安装Hub客户端库 - 创建一个Hugging Face账户(免费!)
- 创建一个访问令牌并将其设置为环境变量(
HUGGINGFACEHUB_API_TOKEN
)
如果您想使用Hugging Face Python库:
- 使用
pip install transformers
安装用于处理模型和分词器的库 - 使用
pip install datasets
安装用于处理数据集的库
包装器
LLM
存在两个Hugging Face LLM包装器,一个用于本地流水线,一个用于Hugging Face Hub上托管的模型。
请注意,这些包装器仅适用于支持以下任务的模型:text2text-generation
,text-generation
使用本地流水线包装器:
from langchain.llms import HuggingFacePipeline
使用Hugging Face Hub上托管的模型的包装器:
from langchain.llms import HuggingFaceHub
有关Hugging Face Hub包装器的更详细说明,请参见此笔记本
嵌入
存在两个Hugging Face嵌入包装器,一个用于本地模型,一个用于Hugging Face Hub上托管的模型。
请注意,这些包装器仅适用于sentence-transformers
模型。
使用本地流水线包装器:
from langchain.embeddings import HuggingFaceEmbeddings
使用Hugging Face Hub上托管的模型的包装器:
from langchain.embeddings import HuggingFaceHubEmbeddings
有关此内容的更详细说明,请参见此笔记本
分词器
您可以在transformers
包中的多个位置使用分词器。
默认情况下,它用于计算所有LLM的标记数。
您还可以在拆分文档时使用它来计算标记,例如:
from langchain.text_splitter import CharacterTextSplitter
CharacterTextSplitter.from_huggingface_tokenizer(...)
有关此内容的更详细说明,请参见此笔记本
数据集
Hugging Face Hub有很多优秀的数据集,可用于评估您的LLM链。
有关如何使用它们进行评估的详细说明,请参见此笔记本