维基百科 (Wikipedia)
维基百科是一个多语言的免费在线百科全书,由一群志愿者社区(称为维基人)通过开放协作和使用基于维基的编辑系统MediaWiki来编写和维护。
维基百科是历史上最大且最受欢迎的参考工具。
本笔记本展示了如何将wikipedia.org上的维基页面加载到我们在下游使用的文档格式中。
安装
首先,您需要安装wikipedia Python包。
#!pip install wikipedia
示例
WikipediaLoader有以下参数:
query:用于在维基百科中查找文档的自由文本- 可选参数
lang:默认为"en"。用于在特定语言部分的维基百科中进行搜索 - 可选参数
load_max_docs:默认为100。用于限制下载的文档数量。下载所有100个文档需要时间,因此在实验中使用较小的数字。目前有一个硬限制为300。 - 可选参数
load_all_available_meta:默认为False。默认情况下,只下载最重要的字段:Published(文档发布/最后更新的日期)、title(标题)、Summary(摘要)。如果为True,则还会下载其他字段。
from langchain.document_loaders import WikipediaLoader
docs = WikipediaLoader(query="HUNTER X HUNTER", load_max_docs=2).load()
len(docs)
docs[0].metadata # 文档的元信息
docs[0].page_content[:400] # 文档的内容
