Embaas(全托管的NLP API服务)
embaas 是一个全托管的NLP API服务,提供嵌入生成、文档文本提取、文档转嵌入等功能。您可以选择各种预训练模型。
先决条件
在https://embaas.io/register上创建一个免费的embaas账户,并生成一个API密钥。
文档文本提取API
文档文本提取API允许您从给定的文档中提取文本。该API支持多种文档格式,包括PDF、mp3、mp4等。有关支持的格式的完整列表,请查看API文档(下面的链接)。
# 设置API密钥
embaas_api_key = "YOUR_API_KEY"
# 或者设置环境变量
os.environ["EMBAAS_API_KEY"] = "YOUR_API_KEY"
使用blob(字节)
from langchain.document_loaders.embaas import EmbaasBlobLoader
from langchain.document_loaders.blob_loaders import Blob
blob_loader = EmbaasBlobLoader()
blob = Blob.from_path("example.pdf")
documents = blob_loader.load(blob)
# 您还可以使用您喜欢的嵌入模型直接创建嵌入
blob_loader = EmbaasBlobLoader(params={"model": "e5-large-v2", "should_embed": True})
blob = Blob.from_path("example.pdf")
documents = blob_loader.load(blob)
print(documents[0]["metadata"]["embedding"])
使用文件
from langchain.document_loaders.embaas import EmbaasLoader
file_loader = EmbaasLoader(file_path="example.pdf")
documents = file_loader.load()
# 禁用自动文本分割
file_loader = EmbaasLoader(file_path="example.mp3", params={"should_chunk": False})
documents = file_loader.load()
有关embaas文档文本提取API的更详细信息,请参阅官方embaas API文档。