Skip to main content

HTML

超文本标记语言(HTML)是用于在Web浏览器中显示的文档的标准标记语言。

这部分介绍了如何将HTML文档加载为我们可以在下游使用的文档格式。

from langchain.document_loaders import UnstructuredHTMLLoader

loader = UnstructuredHTMLLoader("example_data/fake-content.html")

data = loader.load()

data

[Document(page_content='My First Heading\n\nMy first paragraph.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]

使用BeautifulSoup4加载HTML

我们还可以使用BeautifulSoup4使用BSHTMLLoader加载HTML文档。这将把HTML中的文本提取到page_content中,并将页面标题作为metadata中的title

from langchain.document_loaders import BSHTMLLoader

loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data

[Document(page_content='\n\nTest Title\n\n\nMy First Heading\nMy first paragraph.\n\n\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Test Title'})]