无头浏览器

Browserless是一个允许您在云中运行无头Chrome实例的服务。这是一种在规模上运行基于浏览器的自动化的好方法，而无需担心管理自己的基础设施。

要将Browserless用作文档加载器，请按照此笔记本中所示的方式初始化BrowserlessLoader实例。请注意，默认情况下，BrowserlessLoader返回页面body元素的innerText。要禁用此功能并获取原始HTML，请将text_content设置为False。

from langchain.document_loaders import BrowserlessLoader

BROWSERLESS_API_TOKEN = "YOUR_BROWSERLESS_API_TOKEN"

loader = BrowserlessLoader(
    api_token=BROWSERLESS_API_TOKEN,
    urls=[
        "https://en.wikipedia.org/wiki/Document_classification",
    ],
    text_content=True,
)

documents = loader.load()

print(documents[0].page_content[:1000])

    跳转到内容
    主菜单
    搜索
    创建帐户
    登录
    个人工具
    切换目录
    文档分类
    17种语言
    文章
    讨论
    阅读
    编辑
    查看历史
    工具
    来自维基百科，自由的百科全书
    
    文档分类或文档分类是图书馆学、信息科学和计算机科学中的一个问题。任务是将文档分配给一个或多个类别。这可以通过“手动”（或“智力”）或算法来完成。文档的智能分类主要是图书馆学的领域，而文档的算法分类主要是信息科学和计算机科学的领域。然而，这些问题是重叠的，因此在文档分类方面存在跨学科研究。
    
    要分类的文档可以是文本、图像、音乐等。每种类型的文档都有其特殊的分类问题。除非另有规定，否则默认情况下，指的是文本分类。
    
    做