Skip to main content

Embaas(全托管的NLP API服务)

embaas 是一个全托管的NLP API服务,提供嵌入生成、文档文本提取、文档转嵌入等功能。您可以选择各种预训练模型

先决条件

https://embaas.io/register上创建一个免费的embaas账户,并生成一个API密钥

文档文本提取API

文档文本提取API允许您从给定的文档中提取文本。该API支持多种文档格式,包括PDF、mp3、mp4等。有关支持的格式的完整列表,请查看API文档(下面的链接)。

# 设置API密钥
embaas_api_key = "YOUR_API_KEY"
# 或者设置环境变量
os.environ["EMBAAS_API_KEY"] = "YOUR_API_KEY"

使用blob(字节)

from langchain.document_loaders.embaas import EmbaasBlobLoader
from langchain.document_loaders.blob_loaders import Blob
blob_loader = EmbaasBlobLoader()
blob = Blob.from_path("example.pdf")
documents = blob_loader.load(blob)
# 您还可以使用您喜欢的嵌入模型直接创建嵌入
blob_loader = EmbaasBlobLoader(params={"model": "e5-large-v2", "should_embed": True})
blob = Blob.from_path("example.pdf")
documents = blob_loader.load(blob)

print(documents[0]["metadata"]["embedding"])

使用文件

from langchain.document_loaders.embaas import EmbaasLoader
file_loader = EmbaasLoader(file_path="example.pdf")
documents = file_loader.load()
# 禁用自动文本分割
file_loader = EmbaasLoader(file_path="example.mp3", params={"should_chunk": False})
documents = file_loader.load()

有关embaas文档文本提取API的更详细信息,请参阅官方embaas API文档