Skip to main content

开放文档格式(ODT)(Open Document Format)

办公应用程序开放文档格式(ODF),也称为OpenDocument,是一种用于文字处理文档、电子表格、演示文稿和图形的开放文件格式,使用ZIP压缩的XML文件。它的目标是为办公应用程序提供一种基于XML的开放文件格式规范。

这个标准是由组织结构化信息标准促进组织(OASIS)联盟的技术委员会开发和维护的。它基于Sun Microsystems为OpenOffice.org XML制定的规范,这是OpenOffice.orgLibreOffice的默认格式。它最初是为StarOffice开发的,旨在为办公文档提供一种开放的标准。

UnstructuredODTLoader用于加载Open Office ODT文件。

from langchain.document_loaders import UnstructuredODTLoader
loader = UnstructuredODTLoader("example_data/fake.odt", mode="elements")
docs = loader.load()
docs[0]
    Document(page_content='Lorem ipsum dolor sit amet.', metadata={'source': 'example_data/fake.odt', 'filename': 'example_data/fake.odt', 'category': 'Title'})