维基百科 (Wikipedia)
维基百科是一个多语言的免费在线百科全书,由一群志愿者社区(称为维基人)通过开放协作和使用基于维基的编辑系统MediaWiki来编写和维护。
维基百科
是历史上最大且最受欢迎的参考工具。
本笔记本展示了如何将wikipedia.org
上的维基页面加载到我们在下游使用的文档格式中。
安装
首先,您需要安装wikipedia
Python包。
#!pip install wikipedia
示例
WikipediaLoader
有以下参数:
query
:用于在维基百科中查找文档的自由文本- 可选参数
lang
:默认为"en"。用于在特定语言部分的维基百科中进行搜索 - 可选参数
load_max_docs
:默认为100。用于限制下载的文档数量。下载所有100个文档需要时间,因此在实验中使用较小的数字。目前有一个硬限制为300。 - 可选参数
load_all_available_meta
:默认为False。默认情况下,只下载最重要的字段:Published
(文档发布/最后更新的日期)、title
(标题)、Summary
(摘要)。如果为True,则还会下载其他字段。
from langchain.document_loaders import WikipediaLoader
docs = WikipediaLoader(query="HUNTER X HUNTER", load_max_docs=2).load()
len(docs)
docs[0].metadata # 文档的元信息
docs[0].page_content[:400] # 文档的内容