Skip to main content

无头浏览器

Browserless是一个允许您在云中运行无头Chrome实例的服务。这是一种在规模上运行基于浏览器的自动化的好方法,而无需担心管理自己的基础设施。

要将Browserless用作文档加载器,请按照此笔记本中所示的方式初始化BrowserlessLoader实例。请注意,默认情况下,BrowserlessLoader返回页面body元素的innerText。要禁用此功能并获取原始HTML,请将text_content设置为False

from langchain.document_loaders import BrowserlessLoader
BROWSERLESS_API_TOKEN = "YOUR_BROWSERLESS_API_TOKEN"
loader = BrowserlessLoader(
api_token=BROWSERLESS_API_TOKEN,
urls=[
"https://en.wikipedia.org/wiki/Document_classification",
],
text_content=True,
)

documents = loader.load()

print(documents[0].page_content[:1000])
    跳转到内容
主菜单
搜索
创建帐户
登录
个人工具
切换目录
文档分类
17种语言
文章
讨论
阅读
编辑
查看历史
工具
来自维基百科,自由的百科全书

文档分类或文档分类是图书馆学、信息科学和计算机科学中的一个问题。任务是将文档分配给一个或多个类别。这可以通过“手动”(或“智力”)或算法来完成。文档的智能分类主要是图书馆学的领域,而文档的算法分类主要是信息科学和计算机科学的领域。然而,这些问题是重叠的,因此在文档分类方面存在跨学科研究。

要分类的文档可以是文本、图像、音乐等。每种类型的文档都有其特殊的分类问题。除非另有规定,否则默认情况下,指的是文本分类。