Skip to main content

维基百科 (Wikipedia)

维基百科是一个多语言的免费在线百科全书,由一群志愿者社区(称为维基人)通过开放协作和使用基于维基的编辑系统MediaWiki来编写和维护。维基百科是历史上最大且最受欢迎的参考工具。

本笔记本展示了如何将wikipedia.org上的维基页面加载到我们在下游使用的文档格式中。

安装

首先,您需要安装wikipedia Python包。

#!pip install wikipedia

示例

WikipediaLoader有以下参数:

  • query:用于在维基百科中查找文档的自由文本
  • 可选参数lang:默认为"en"。用于在特定语言部分的维基百科中进行搜索
  • 可选参数load_max_docs:默认为100。用于限制下载的文档数量。下载所有100个文档需要时间,因此在实验中使用较小的数字。目前有一个硬限制为300。
  • 可选参数load_all_available_meta:默认为False。默认情况下,只下载最重要的字段:Published(文档发布/最后更新的日期)、title(标题)、Summary(摘要)。如果为True,则还会下载其他字段。
from langchain.document_loaders import WikipediaLoader
docs = WikipediaLoader(query="HUNTER X HUNTER", load_max_docs=2).load()
len(docs)
docs[0].metadata  # 文档的元信息
docs[0].page_content[:400]  # 文档的内容