文档转换器 (Document transformers)
📄️ Beautiful Soup
Beautiful Soup提供了对HTML内容的精细控制,可以实现特定标签的提取、删除和内容清理。
📄️ Doctran提取属性 (Doctran Extract Properties)
我们可以使用Doctran库提取文档的有用特征,该库使用OpenAI的函数调用功能来提取特定的元数据。
📄️ Doctran 构建查询文档 (Doctran Interrogate Documents)
在向量存储知识库中使用的文档通常以叙述或会话格式存储。然而,大多数用户查询都是以问题格式提出的。如果我们在将文档向量化之前将其转换为Q&A格式,我们可以增加检索相关文档的可能性,并减少检索不相关文档的可能性。
📄️ Doctran翻译文档 (Doctran Translate Documents)
比较嵌入式文档的好处是可以跨多种语言进行工作。"Harrison says hello"和"Harrison dice hola"在向量空间中会占据相似的位置,因为它们在语义上具有相同的含义。
📄️ html2text
html2text 是一个将HTML页面转换为干净、易读的纯ASCII文本的Python脚本。
📄️ Nuclia Understanding API文档转换器
Nuclia可以自动索引来自任何内部和外部来源的非结构化数据,提供优化的搜索结果和生成的答案。它可以处理视频和音频转录、图像内容提取和文档解析。
📄️ OpenAI函数元数据标记器 (OpenAI Functions Metadata Tagger)
通常,给摄入的文档打上结构化的元数据标签(如标题、语调或长度)可以方便后续进行更有针对性的相似性搜索。然而,对于大量的文档来说,手动执行这个标记过程可能会很繁琐。