检索器 (Retrievers)
📄️ Amazon Kendra
亚马逊 Kendra (Amazon Kendra) 是由亚马逊网络服务 (AWS) 提供的智能搜索服务。它利用先进的自然语言处理 (NLP) 和机器学习算法,在组织内的各种数据源之间实现强大的搜索功能。Kendra 旨在帮助用户快速准确地找到所需的信息,提高生产力和决策能力。
📄️ Arxiv
arXiv 是一个开放获取的学术文章存档,包含了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程与系统科学以及经济学等领域的200万篇学术文章。
📄️ Azure Cognitive Search
Azure认知搜索(以前称为Azure搜索)是一种云搜索服务,为开发人员提供基础设施、API和工具,用于在Web、移动和企业应用程序中构建丰富的搜索体验,以搜索私有、异构内容。
📄️ BM25
BM25也被称为Okapi BM25,是信息检索系统中用于估计文档与给定搜索查询的相关性的排名函数。
📄️ Chaindesk
Chaindesk平台将来自任何地方的数据(数据源:文本、PDF、Word、PowerPoint、Excel、Notion、Airtable、Google Sheets等)带入数据存储区(多个数据源的容器)。
📄️ ChatGPT
OpenAI 插件 将 ChatGPT 连接到第三方应用程序。这些插件使 ChatGPT 能够与开发人员定义的 API 进行交互,增强 ChatGPT 的功能,并使其能够执行各种操作。
📄️ Cohere Reranker
Cohere 是一家加拿大初创公司,提供自然语言处理模型,帮助企业改善人机交互。
📄️ DocArray
DocArray是一个多功能的开源工具,用于管理多模态数据。它允许您按照自己的需求来组织数据,并提供了使用各种文档索引后端进行存储和搜索的灵活性。更棒的是,您可以利用您的DocArray文档索引来创建一个DocArrayRetriever,并构建出色的Langchain应用程序!
📄️ ElasticSearch BM25
Elasticsearch 是一个分布式的、RESTful的搜索和分析引擎。它提供了一个分布式、多租户能力的全文搜索引擎,具有HTTP Web界面和无模式的JSON文档。
📄️ Google Cloud Enterprise Search
Google Cloud Enterprise Search是Google Cloud提供的生成AI应用构建器套件中的一部分工具。
📄️ kNN (k最近邻算法)
在统计学中,k最近邻算法(k-NN)是一种非参数的监督学习方法,最早由Evelyn Fix和Joseph Hodges于1951年开发,后来由Thomas Cover进行了扩展。它用于分类和回归。
📄️ LOTR (Merger Retriever)(LOTR(合并检索器))
Lord of the Retrievers,也被称为MergerRetriever,接受一个检索器列表作为输入,并将它们的getrelevantdocuments()方法的结果合并成一个列表。合并后的结果将是一个与查询相关且由不同检索器进行排名的文档列表。
📄️ Metal
Metal是一个用于ML嵌入的托管服务。
📄️ Pinecone Hybrid Search
Pinecone 是一个具有广泛功能的向量数据库。
📄️ PubMed(美国国立生物技术信息中心,国家医学图书馆)
PubMed® 是由美国国立生物技术信息中心、国家医学图书馆创建的数据库,包含了来自MEDLINE、生命科学期刊和在线图书的超过3500万篇生物医学文献引用。引用可能包含来自PubMed Central和出版商网站的全文内容链接。
📄️ RePhraseQueryRetriever
简单的检索器,将用户输入和查询传递给检索器之间应用LLM。
📄️ 支持向量机 (SVM)
支持向量机 (SVM) 是一组用于分类、回归和异常值检测的监督学习方法。
📄️ TF-IDF(词频-逆文档频率)
TF-IDF 意味着词频乘以逆文档频率。
📄️ Vespa
Vespa是一个功能齐全的搜索引擎和向量数据库。它支持向量搜索(ANN)、词汇搜索和结构化数据搜索,所有这些都可以在同一个查询中进行。
📄️ Weaviate Hybrid Search
Weaviate是一个开源的向量数据库。
📄️ Wikipedia
维基百科是一个多语言的免费在线百科全书,由一群志愿者社区(称为维基人)通过开放协作和使用名为MediaWiki的基于维基的编辑系统编写和维护。维基百科是历史上最大和最受欢迎的参考工作。
📄️ Zep
Zep的检索器示例 - 用于LLM应用程序的长期存储