SingleStoreDB 单存储数据库

SingleStoreDB 是一个高性能的分布式 SQL 数据库，支持在云端和本地部署。它提供了向量存储和向量函数，包括dot_product和euclidean_distance，从而支持需要文本相似度匹配的 AI 应用。

本教程演示了如何在 SingleStoreDB 中处理向量数据。

# 通过 singlestoredb Python 连接器方便地建立与数据库的连接。
# 请确保在您的工作环境中安装了此连接器。
pip install singlestoredb

import os
import getpass

# 我们想要使用 OpenAIEmbeddings，因此我们需要获取 OpenAI API 密钥。
os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API 密钥:")

from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import SingleStoreDB
from langchain.document_loaders import TextLoader

# 加载文本样本
loader = TextLoader("../../../state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

embeddings = OpenAIEmbeddings()

有几种方法可以建立与数据库的连接。您可以设置环境变量或将命名参数传递给 SingleStoreDB 构造函数。或者，您可以将这些参数提供给 from_documents 和 from_texts 方法。

# 将连接 URL 设置为环境变量
os.environ["SINGLESTOREDB_URL"] = "root:pass@localhost:3306/db"

# 将文档加载到存储中
docsearch = SingleStoreDB.from_documents(
    docs,
    embeddings,
    table_name="notebook",  # 使用自定义名称的表
)

query = "总统对 Ketanji Brown Jackson 说了什么"
docs = docsearch.similarity_search(query)  # 查找与查询相对应的文档
print(docs[0].page_content)