Skip to main content

Mastodon

Mastodon 是一个联合的社交媒体和社交网络服务。

此加载器使用 Mastodon.py Python 包从一组 Mastodon 账户的“toots”中获取文本。

默认情况下,可以查询公共账户而无需任何身份验证。如果查询非公共账户或实例,则需要为您的账户注册一个应用程序,以获取访问令牌,并设置该令牌和您的账户的 API 基本 URL。

然后,您需要以 @account@instance 的格式传入要提取的 Mastodon 账户名称。

from langchain.document_loaders import MastodonTootsLoader
#!pip install Mastodon.py
loader = MastodonTootsLoader(
mastodon_accounts=["@Gargron@mastodon.social"],
number_toots=50, # 默认值为 100
)

# 或者设置访问信息以使用 Mastodon 应用程序。
# 请注意,访问令牌可以传递给构造函数,也可以设置环境变量 "MASTODON_ACCESS_TOKEN"。
# loader = MastodonTootsLoader(
# access_token="<MASTODON APP 的访问令牌>",
# api_base_url="<MASTODON APP 实例的 API 基本 URL>",
# mastodon_accounts=["@Gargron@mastodon.social"],
# number_toots=50, # 默认值为 100
# )
documents = loader.load()
for doc in documents[:3]:
print(doc.page_content)
print("=" * 80)
    <p>很难离开这里,回到现实。而有些人就住在这里!我确定有不好的地方,但现在对我来说听起来还不错。</p>
================================================================================
<p>我希望我们能在这里多待一会儿,但是现在是回家的时候了 🥲</p>
================================================================================
<p>蜜月的最后一天。而且今天是 <a href="https://mastodon.social/tags/caturday" class="mention hashtag" rel="tag">#<span>caturday</span></a>!这只可爱的虎斑猫来到餐厅乞讨食物,得到了一些鸡肉。</p>
================================================================================

toot 文本(文档的 page_content)默认为 Mastodon API 返回的 HTML 格式。