Skip to main content

YouTube转录

YouTube是由Google创建的在线视频共享和社交媒体平台。

本笔记本介绍了如何从YouTube转录加载文档。

from langchain.document_loaders import YoutubeLoader
# !pip install youtube-transcript-api
loader = YoutubeLoader.from_youtube_url(
"https://www.youtube.com/watch?v=QsYGlZkevEg", add_video_info=True
)
loader.load()

添加视频信息

# ! pip install pytube
loader = YoutubeLoader.from_youtube_url(
"https://www.youtube.com/watch?v=QsYGlZkevEg", add_video_info=True
)
loader.load()

添加语言偏好

语言参数:这是一个按降序优先级排列的语言代码列表,默认为en

翻译参数:当YouTube没有您选择的语言时,这是一个翻译偏好,默认为en

loader = YoutubeLoader.from_youtube_url(
"https://www.youtube.com/watch?v=QsYGlZkevEg",
add_video_info=True,
language=["en", "id"],
translation="en",
)
loader.load()

来自Google Cloud的YouTube加载器

先决条件

  1. 创建一个Google Cloud项目或使用现有项目
  2. 启用Youtube Api
  3. 为桌面应用程序授权凭据
  4. pip install --upgrade google-api-python-client google-auth-httplib2 google-auth-oauthlib youtube-transcript-api

🧑 从Google Docs中提取数据的说明

默认情况下,GoogleDriveLoader期望credentials.json文件位于~/.credentials/credentials.json,但可以使用credentials_file关键字参数进行配置。token.json也是一样。请注意,第一次使用加载器时,token.json将自动创建。

GoogleApiYoutubeLoader可以从Google Docs文档ID列表或文件夹ID加载。您可以从URL中获取文件夹和文档ID: 请注意,根据您的设置,service_account_path需要进行设置。有关更多详细信息,请参见此处

from langchain.document_loaders import GoogleApiClient, GoogleApiYoutubeLoader

# 初始化GoogleApiClient
from pathlib import Path


google_api_client = GoogleApiClient(credentials_path=Path("your_path_creds.json"))


# 使用频道
youtube_loader_channel = GoogleApiYoutubeLoader(
google_api_client=google_api_client,
channel_name="Reducible",
captions_language="en",
)

# 使用Youtube Ids

youtube_loader_ids = GoogleApiYoutubeLoader(
google_api_client=google_api_client, video_ids=["TrdevFK_am4"], add_video_info=True
)

# 返回文档列表
youtube_loader_channel.load()