Grobid (GROBID)

GROBID是一个用于提取、解析和重构原始文档的机器学习库。

它被设计和期望用于解析学术论文，在这方面表现特别出色。

注意: 如果提供给GROBID的文章是大型文档（例如论文），超过一定数量的元素，可能无法处理。

本页面介绍了如何使用GROBID来解析LangChain的文章。

安装

GROBID的安装详细说明在https://grobid.readthedocs.io/en/latest/Install-Grobid/中。然而，通过Docker容器运行GROBID可能更简单和不麻烦，具体文档在这里。

使用GROBID与LangChain

一旦安装并运行GROBID（可以通过访问http://localhost:8070 进行检查），您就可以开始使用了。

现在，您可以使用GrobidParser来生成文档

from langchain.document_loaders.parsers import GrobidParser
from langchain.document_loaders.generic import GenericLoader

#从文章段落生成块
loader = GenericLoader.from_filesystem(
    "/Users/31treehaus/Desktop/Papers/",
    glob="*",
    suffixes=[".pdf"],
    parser= GrobidParser(segment_sentences=False)
)
docs = loader.load()

#从文章句子生成块
loader = GenericLoader.from_filesystem(
    "/Users/31treehaus/Desktop/Papers/",
    glob="*",
    suffixes=[".pdf"],
    parser= GrobidParser(segment_sentences=True)
)
docs = loader.load()

块的元数据将包括边界框。虽然这些边界框有点难以解析，但在https://grobid.readthedocs.io/en/latest/Coordinates-in-PDF/中有解释。

Grobid (GROBID)

安装​

使用GROBID与LangChain​

安装

使用GROBID与LangChain