MediaWikiDump (媒体维基转储)
MediaWiki XML Dumps 包含维基的内容(包括所有修订版本的维基页面),但不包含与站点相关的数据。XML转储不会创建完整的维基数据库备份,转储中不包含用户帐户、图片、编辑日志等。
安装和设置
我们需要安装几个Python包。
mediawiki-utilities
支持未合并分支中的XML模式0.11。
pip install -qU git+https://github.com/mediawiki-utilities/python-mwtypes@updates_schema_0.11
mediawiki-utilities mwxml
存在一个错误,修复PR正在等待中。
pip install -qU git+https://github.com/gdedrouas/python-mwxml@xml_format_0.11
pip install -qU mwparserfromhell
文档加载器
请参阅使用示例。
from langchain.document_loaders import MWDumpLoader