文档加载器 (Document loaders)
📄️ Etherscan Loader(以太坊浏览器加载器)
概述(Overview)
📄️ acreom
acreom 是一个以开发者为导向的知识库,任务在本地的 markdown 文件上运行。
📄️ Airbyte CDK
Airbyte是一个用于从API、数据库和文件到数据仓库和数据湖的ELT管道的数据集成平台。它拥有最大的ELT连接器目录,可连接到数据仓库和数据库。
📄️ Airbyte Gong
Airbyte是一个用于从API、数据库和文件到数据仓库和数据湖的ELT管道的数据集成平台。它拥有最大的ELT连接器目录,可连接到数据仓库和数据库。
📄️ Airbyte Hubspot
Airbyte 是一个用于从API、数据库和文件到数据仓库和数据湖的ELT管道的数据集成平台。它拥有最大的ELT连接器目录,可连接到数据仓库和数据库。
📄️ Airbyte JSON
Airbyte 是一个用于从API、数据库和文件到数据仓库和数据湖的ELT管道的数据集成平台。它拥有最大的ELT连接器目录,可连接到数据仓库和数据库。
📄️ Airbyte Salesforce
Airbyte是一个用于从API、数据库和文件到数据仓库和数据湖的ELT管道的数据集成平台。它拥有最大的ELT连接器目录,可连接到数据仓库和数据库。
📄️ Airbyte Shopify
Airbyte是一个用于从API、数据库和文件到数据仓库和数据湖的ELT管道的数据集成平台。它拥有最大的ELT连接器目录,可连接到数据仓库和数据库。
📄️ Airbyte Stripe
Airbyte 是一个用于从API、数据库和文件到数据仓库和数据湖的ELT管道的数据集成平台。它拥有最大的ELT连接器目录,可连接到数据仓库和数据库。
📄️ Airbyte Typeform
Airbyte 是一个用于从API、数据库和文件到数据仓库和数据湖的ELT管道的数据集成平台。它拥有最大的ELT连接器目录,可连接到数据仓库和数据库。
📄️ Airbyte Zendesk Support
Airbyte是一个用于从API、数据库和文件到数据仓库和数据湖的ELT管道的数据集成平台。它拥有最大的ELT连接器目录,可连接到数据仓库和数据库。
📄️ Airtable
* 在此处获取您的API密钥here。
📄️ 阿里云MaxCompute
阿里云MaxCompute(以前称为ODPS)是一个通用的、完全托管的、多租户的大规模数据仓库数据处理平台。MaxCompute支持各种数据导入解决方案和分布式计算模型,使用户能够有效地查询海量数据集,降低生产成本,并确保数据安全。
📄️ Apify
Apify数据集是一个可扩展的追加存储,用于存储结构化的网络爬取结果,例如产品列表或Google SERP,并将其导出为JSON、CSV或Excel等各种格式。数据集主要用于保存Apify Actors的结果,Apify Actors是用于各种网络爬取、抓取和数据提取用例的无服务器云程序。
📄️ Arxiv
arXiv是一个开放获取的存档,收录了200万篇物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程与系统科学以及经济学方面的学术文章。
📄️ AsyncHtmlLoader 异步HTML加载器
AsyncHtmlLoader可以同时从一组URL中加载原始HTML。
📄️ AWS S3 Directory
Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务
📄️ AWS S3 文件
Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务。
📄️ AZLyrics
AZLyrics 是一个庞大的、合法的、每天都在增长的歌词收集。
📄️ Azure Blob Storage
Azure Blob Storage是微软的云对象存储解决方案。Blob Storage专为存储大量非结构化数据进行了优化。非结构化数据是指不符合特定数据模型或定义的数据,例如文本或二进制数据。
📄️ Azure Blob Storage File
Azure Files在云中提供了完全托管的文件共享,可通过行业标准的Server Message Block(SMB)协议、Network File System(NFS)协议和Azure Files REST API进行访问。
📄️ BibTeX
BibTeX是一种与LaTeX排版常用的文件格式和参考管理系统。它用于组织和存储学术和研究文档的文献信息。
📄️ BiliBili (哔哩哔哩)
Bilibili 是中国最受喜爱的长视频网站之一。
📄️ Blackboard
Blackboard Learn(前身为Blackboard Learning Management System)是由Blackboard Inc.开发的基于Web的虚拟学习环境和学习管理系统。该软件具有课程管理、可定制的开放架构和可扩展的设计,可以与学生信息系统和身份验证协议进行集成。它可以安装在本地服务器上,由Blackboard ASP Solutions托管,或作为在Amazon Web Services上托管的软件即服务提供。其主要目的是在传统面对面课程中添加在线元素,并开发几乎没有面对面会议的完全在线课程。
📄️ 区块链 (Blockchain)
概述 (Overview)
📄️ Brave Search
Brave Search 是由勇敢软件开发的搜索引擎。
📄️ 无头浏览器
Browserless是一个允许您在云中运行无头Chrome实例的服务。这是一种在规模上运行基于浏览器的自动化的好方法,而无需担心管理自己的基础设施。
📄️ ChatGPT 数据
ChatGPT 是由OpenAI开发的人工智能(AI)聊天机器人。
📄️ College Confidential
College Confidential 提供了3800多所大学和大学的信息。
📄️ 并发加载器 (Concurrent Loader)
Works just like the GenericLoader but concurrently for those who choose to optimize their workflow.
📄️ Confluence
Confluence是一个维基协作平台,用于保存和组织所有与项目相关的材料。Confluence是一个主要处理内容管理活动的知识库。
📄️ CoNLL-U
CoNLL-U是CoNLL-X格式的修订版本。注释以纯文本文件(UTF-8编码,规范化为NFC,仅使用LF字符作为换行符,包括文件末尾的LF字符)编码,包含三种类型的行:
📄️ Copy Paste
本文档介绍如何从要复制粘贴的内容中加载文档对象。在这种情况下,您甚至不需要使用 DocumentLoader,而是可以直接构造 Document。
📄️ CSV(逗号分隔值)
逗号分隔值(CSV)文件是一种使用逗号分隔值的定界文本文件。文件的每一行是一个数据记录。每个记录由一个或多个字段组成,字段之间用逗号分隔。
📄️ Cube语义层 (Cube Semantic Layer)
这个笔记本演示了以适合传递给LLMs作为嵌入的格式检索Cube的数据模型元数据的过程,从而增强上下文信息。
📄️ Datadog
Datadog是一个用于云规模应用程序的监控和分析平台。
📄️ Diffbot
与传统的网络爬虫工具不同,Diffbot不需要任何规则来读取页面上的内容。
📄️ Discord
Discord 是一款语音通话和即时消息社交平台。用户可以通过语音通话、视频通话、文字消息、媒体和文件在私聊或作为名为“服务器”的社区的一部分进行交流。服务器是一组持久的聊天室和语音频道,可以通过邀请链接访问。
📄️ Docugami(文档分析)
本文档介绍如何从Docugami加载文档。它提供了使用该系统相比其他数据加载器的优势。
📄️ Dropbox
Drobpox is a file hosting service that brings everything-traditional files, cloud content, and web shortcuts together in one place.
📄️ DuckDB
DuckDB 是一个内置的 SQL OLAP 数据库管理系统。
This notebook shows how to load email (.eml) or Microsoft Outlook (.msg) files.
📄️ Embaas(全托管的NLP API服务)
embaas 是一个全托管的NLP API服务,提供嵌入生成、文档文本提取、文档转嵌入等功能。您可以选择各种预训练模型。
📄️ EPub (电子出版物)
EPUB 是一种使用“.epub”文件扩展名的电子书文件格式。该术语是电子出版物的缩写,有时被称为 ePub。EPUB 受到许多电子阅读器的支持,并且大多数智能手机、平板电脑和计算机都有兼容的软件可用。
📄️ EverNote
EverNote 旨在存档和创建笔记,可以嵌入照片、音频和保存的网页内容。笔记存储在虚拟的“笔记本”中,可以进行标记、注释、编辑、搜索和导出。
🗃️ example_data
1 items
📄️ Microsoft Excel(微软Excel)
UnstructuredExcelLoader 用于加载 Microsoft Excel 文件。该加载器适用于 .xlsx 和 .xls 文件。页面内容将是 Excel 文件的原始文本。如果您在“元素”模式下使用加载器,则可以在文档元数据的 textashtml 键下找到 Excel 文件的 HTML 表示。
📄️ Facebook聊天
Messenger)是一款美国专有的即时通讯应用和平台,由Meta Platforms开发。最初于2008年作为Facebook Chat开发,该公司在2010年改进了其消息服务。
📄️ Fauna
Fauna 是一个文档数据库。
📄️ Figma
Figma是一个用于界面设计的协作Web应用程序。
📄️ Geopandas
Geopandas 是一个开源项目,旨在使在Python中处理地理空间数据更加容易。
📄️ Git
Git是一种分布式版本控制系统,用于跟踪任何一组计算机文件的更改,通常用于在软件开发过程中协调程序员之间协同开发源代码。
📄️ GitBook
GitBook是一个现代化的文档平台,团队可以在这里记录从产品到内部知识库和API的所有内容。
📄️ GitHub
这个笔记本展示了如何在GitHub上为给定的存储库加载问题和拉取请求(PRs)。我们将使用LangChain Python存储库作为示例。
📄️ Google BigQuery
Google BigQuery是一个无服务器且具有成本效益的企业数据仓库,可在多个云中运行并随着数据的增长而扩展。
📄️ Google Cloud Storage目录
Google Cloud Storage是一项用于存储非结构化数据的托管服务。
📄️ Google Cloud Storage 文件
Google Cloud Storage 是一项用于存储非结构化数据的托管服务。
📄️ 谷歌云端硬盘 (Google Drive)
谷歌云端硬盘 是由谷歌开发的文件存储和同步服务。
📄️ Grobid
GROBID是一个用于提取、解析和重构原始文档的机器学习库。
📄️ 古腾堡计划 (Gutenberg)
古腾堡计划 是一个免费电子书的在线图书馆。
📄️ Hacker News
Hacker News(有时缩写为HN)是一个专注于计算机科学和创业的社交新闻网站。它由投资基金和创业孵化器Y Combinator运营。一般来说,可以提交的内容被定义为“满足人们的知识好奇心的任何东西”。
📄️ 华为OBS目录 (Huawei OBS Directory)
The following code demonstrates how to load objects from the Huawei OBS (Object Storage Service) as documents.
📄️ 华为OBS文件 (Huawei OBS File)
以下代码演示了如何从华为OBS(对象存储服务)加载一个对象作为文档。
📄️ HuggingFace数据集
Hugging Face Hub是拥有超过5000个数据集的家园,涵盖100多种语言,可用于自然语言处理、计算机视觉和音频等广泛领域的任务。这些数据集可用于各种任务,如翻译、自动语音识别和图像分类。
📄️ iFixit
iFixit 是网络上最大的开放式维修社区。该网站包含近10万份维修手册、42k个设备上的20万个问题和答案,并且所有数据都在CC-BY-NC-SA 3.0许可下发布。
📄️ 图像
Images(图像)这一部分涵盖了如何将JPG或PNG等图像加载到我们可以在下游使用的文档格式中。
📄️ 图像标题
默认情况下,加载器使用预训练的Salesforce BLIP图像标题模型。
📄️ IMSDb (Internet电影剧本数据库)
IMSDb 是一个Internet电影剧本数据库。
📄️ Iugu
Iugu是一家巴西的服务和软件即服务(SaaS)公司。它提供用于电子商务网站和移动应用程序的支付处理软件和应用程序编程接口。
📄️ Joplin
Joplin 是一个开源的笔记应用。您可以记录您的想法,并从任何设备安全地访问它们。
📄️ Jupyter Notebook
Jupyter Notebook(以前称为IPython Notebook)是一个基于Web的交互式计算环境,用于创建笔记本文档。
📄️ LarkSuite (FeiShu)
LarkSuite是字节跳动开发的企业协作平台。
📄️ Mastodon
Mastodon 是一个联合的社交媒体和社交网络服务。
📄️ MediaWikiDump
MediaWiki XML Dumps包含了维基的内容(维基页面及其所有修订版本),但不包含与站点相关的数据。XML转储不会创建维基数据库的完整备份,转储文件中不包含用户帐户、图像、编辑日志等。
📄️ MergeDocLoader
合并从一组指定的数据加载器返回的文档。
📄️ mhtml (MHTML)
MHTML是一种用于电子邮件和存档网页的格式。MHTML,有时也称为MHT,代表MIME HTML,是一个包含整个网页的单个文件。当将网页保存为MHTML格式时,该文件扩展名将包含HTML代码、图像、音频文件、Flash动画等内容。
📄️ Microsoft OneDrive (微软 OneDrive)
Microsoft OneDrive(前身为SkyDrive)是由微软运营的文件托管服务。
📄️ Microsoft PowerPoint(微软 PowerPoint)
Microsoft PowerPoint 是微软公司的演示文稿程序。
📄️ Microsoft Word
Microsoft Word 是由微软开发的文字处理软件。
📄️ Modern Treasury
现代财库 简化了复杂的支付操作。它是一个统一的平台,用于支持移动资金的产品和流程。
📄️ 新闻URL (News URL)
这部分介绍了如何从URL列表中加载HTML新闻文章,并将其转换为我们可以在下游使用的文档格式。
📄️ Notion数据库 1/2
Notion 是一个协作平台,支持修改的Markdown,集成看板、任务、维基和数据库。它是一个集合了笔记、知识和数据管理以及项目和任务管理的多合一工作空间。
📄️ Notion数据库 2/2 (Notion DB 2/2)
Notion 是一个集成看板、任务、维基和数据库的协作平台,支持修改的Markdown语法。它是一个集合了笔记、知识和数据管理以及项目和任务管理的全能工作空间。
📄️ Nuclia Understanding API文档加载器 (Nuclia Understanding API Document Loader)
Nuclia可以自动索引来自任何内部和外部来源的非结构化数据,提供优化的搜索结果和生成的答案。它可以处理视频和音频转录、图像内容提取和文档解析。
📄️ Obsidian
Obsidian 是一个功能强大且可扩展的知识库,它基于本地的纯文本文件夹工作。
📄️ 开放文档格式(ODT)(Open Document Format)
办公应用程序开放文档格式(ODF),也称为OpenDocument,是一种用于文字处理文档、电子表格、演示文稿和图形的开放文件格式,使用ZIP压缩的XML文件。它的目标是为办公应用程序提供一种基于XML的开放文件格式规范。
📄️ 开放城市数据 (Open City Data)
Socrata 提供了一个城市开放数据的 API。
📄️ Org-mode (组织模式)
Org Mode文档是一种用于在自由软件文本编辑器Emacs中进行笔记、计划和撰写的文档编辑、格式化和组织模式。
📄️ Pandas DataFrame (Pandas数据帧)
本笔记本介绍了如何从pandas数据帧中加载数据。
📄️ Psychic
本笔记本介绍如何从Psychic加载文档。更多详情请参见这里。
📄️ PubMed
PubMed®由国家生物技术信息中心、国家医学图书馆提供,包括来自MEDLINE、生命科学期刊和在线图书的超过3500万篇生物医学文献引用。引文可能包含来自PubMed Central和出版商网站的全文内容链接。
📄️ PySpark DataFrame 加载器 (PySpark DataFrame Loader)
本笔记本介绍了如何从 PySpark DataFrame 加载数据。
📄️ ReadTheDocs Documentation
Read the Docs是一个开源的免费软件文档托管平台。它使用Sphinx文档生成器生成文档。
📄️ Recursive URL Loader
We may want to process load all URLs under a root directory.
Reddit是一个美国的社交新闻聚合、内容评级和讨论网站。
📄️ Roam
ROAM是一个用于网络思维的笔记工具,旨在创建个人知识库。
📄️ Rockset
Rockset是一个实时分析数据库,可以在没有操作负担的情况下对大规模的半结构化数据进行查询。使用Rockset,导入的数据可以在一秒钟内进行查询,并且对该数据的分析查询通常在毫秒级别执行。Rockset是计算优化的,适用于在子100TB范围内提供高并发应用程序的服务(或者使用滚动聚合大于100TB)。
📄️ RSS订阅
This covers how to load HTML news articles from a list of RSS feed URLs into a document format that we can use downstream.
📄️ RST (reStructured Text)
reStructured Text (RST)文件是一种用于文本数据的文件格式,主要在Python编程语言社区中用于技术文档。
📄️ Sitemap
Extends from the WebBaseLoader, SitemapLoader loads a sitemap from a given URL, and then scrape and load all pages in the sitemap, returning each page as a Document.
📄️ Slack
Slack 是一个即时通讯程序。
📄️ Snowflake
This notebooks goes over how to load documents from Snowflake (这个笔记本介绍了如何从Snowflake加载文档)
📄️ 源代码
本笔记本介绍了如何使用语言解析的特殊方法加载源代码文件:代码中的每个顶级函数和类都会加载到单独的文档中。已加载函数和类之外的任何剩余代码将加载到单独的文档中。
📄️ Spreedly
Spreedly 是一个服务,允许您安全地存储信用卡并将其用于与任意数量的支付网关和第三方API进行交易。它通过同时提供卡片令牌化/保险库服务以及网关和接收器集成服务来实现此目的。由Spreedly令牌化的支付方式存储在Spreedly中,允许您独立存储卡片,然后根据业务需求将该卡片传递给不同的终端点。
📄️ Stripe
Stripe是一家爱尔兰-美国的金融服务和软件即服务(SaaS)公司。它提供用于电子商务网站和移动应用程序的支付处理软件和应用程序编程接口。
📄️ Subtitle
SubRip文件格式在Matroska多媒体容器格式的网站上被描述为“可能是所有字幕格式中最基本的”。SubRip (SubRip Text)文件的扩展名为.srt,其中包含由空行分隔的格式化纯文本行组。字幕按顺序编号,从1开始。使用的时间码格式为小时秒,毫秒,时间单位固定为两个零填充的数字,小数部分固定为三个零填充的数字(0000,000)。小数分隔符使用逗号,因为该程序是在法国编写的。
📄️ Telegram(电报)
Telegram Messenger 是一种全球可访问的免费、跨平台、加密、基于云的集中式即时通讯服务。该应用程序还提供可选的端到端加密聊天和视频通话、VoIP、文件共享和其他几个功能。
📄️ 腾讯COS目录 (Tencent COS Directory)
本文介绍如何从腾讯COS目录加载文档对象。
📄️ 腾讯COS文件 (Tencent COS File)
本文介绍如何从腾讯COS文件中加载文档对象。
📄️ TensorFlow数据集
TensorFlow数据集是一个已经准备好可以与TensorFlow或其他Python机器学习框架(如Jax)一起使用的数据集集合。所有数据集都以tf.data.Datasets的形式暴露,可以实现易于使用和高性能的输入流水线。要开始使用,请参阅指南和数据集列表。
📄️ 2Markdown
2markdown服务将网站内容转换为结构化的markdown文件。
📄️ TOML
TOML 是一种用于配置文件的文件格式。它旨在易于阅读和编写,并且设计为能够明确地映射到字典。其规范是开源的。TOML 在许多编程语言中都有实现。TOML 这个名称是 "Tom's Obvious, Minimal Language" 的首字母缩写,指的是它的创建者 Tom Preston-Werner。
📄️ Trello
Trello 是一个基于Web的项目管理和协作工具,允许个人和团队组织和跟踪他们的任务和项目。它提供了一个名为“看板”的可视化界面,用户可以创建列表和卡片来表示他们的任务和活动。
📄️ TSV(Tab分隔值)
Tab分隔值(TSV)文件是一种简单的基于文本的文件格式,用于存储表格数据。记录之间由换行符分隔,记录内的值由制表符分隔。
📄️ Twitter(推特)
Twitter 是一个在线社交媒体和社交网络服务。
📄️ 非结构化文件 (Unstructured File)
This notebook covers how to use Unstructured package to load files of many types. Unstructured currently supports loading of text files, powerpoints, html, pdfs, images, and more.
📄️ URL (网址)
这部分介绍了如何从URL列表中加载HTML文档,并将其转换为我们可以在下游使用的文档格式。
📄️ 天气 (Weather)
OpenWeatherMap 是一个开源的天气服务提供商 (OpenWeatherMap is an open source weather service provider)
📄️ WebBaseLoader (网页基础加载器)
这部分介绍如何使用 WebBaseLoader 将所有文本从 HTML 网页加载到我们可以在下游使用的文档格式中。要获取有关加载网页的更多自定义逻辑,请查看一些子类示例,例如 IMSDbLoader、AZLyricsLoader 和 CollegeConfidentialLoader。
📄️ WhatsApp聊天
WhatsApp(也称为WhatsApp Messenger)是一款免费软件,跨平台的集中式即时通讯(IM)和语音通话(VoIP)服务。它允许用户发送文本和语音消息,进行语音和视频通话,并共享图像、文档、用户位置和其他内容。
📄️ 维基百科 (Wikipedia)
维基百科是一个多语言的免费在线百科全书,由一群志愿者社区(称为维基人)通过开放协作和使用基于维基的编辑系统MediaWiki来编写和维护。维基百科是历史上最大且最受欢迎的参考工具。
📄️ XML (XML)
UnstructuredXMLLoader 用于加载 XML 文件。该加载器适用于 .xml 文件。页面内容将是从 XML 标签中提取的文本。
📄️ Xorbits Pandas DataFrame
这个笔记本介绍了如何从 xorbits.pandas DataFrame 加载数据。
📄️ 从YouTube url加载文档 (Loading documents from a YouTube url)
在YouTube视频上构建聊天或问答应用程序是一个非常有趣的话题。
📄️ YouTube转录
YouTube是由Google创建的在线视频共享和社交媒体平台。