Skip to main content

Diffbot

Diffbot 是一个用于读取网页的服务。与传统的网页抓取工具不同,Diffbot 不需要任何规则来读取页面上的内容。 它首先使用计算机视觉将页面分类为20种可能的类型之一。然后,通过机器学习模型对页面上的关键属性进行解释,该模型是根据页面类型进行训练的。 结果是将网站转换为干净结构化的数据(如JSON或CSV),可以直接用于您的应用程序。

安装和设置

阅读说明以获取Diffbot API令牌。

文档加载器

查看使用示例

from langchain.document_loaders import DiffbotLoader