Skip to main content

新闻URL (News URL)

这部分介绍了如何从URL列表中加载HTML新闻文章,并将其转换为我们可以在下游使用的文档格式。

from langchain.document_loaders import NewsURLLoader
urls = [
"https://www.bbc.com/news/world-us-canada-66388172",
"https://www.bbc.com/news/entertainment-arts-66384971",
]

将URL加载到文档中

loader = NewsURLLoader(urls=urls)
data = loader.load()
print("第一篇文章:", data[0])
print("\n第二篇文章:", data[1])
    第一篇文章: page_content='在国会委员会审查1月6日骚乱时,鲍威尔夫人表示,她没有审查她提出的所有关于选举舞弊的许多指控,告诉他们“没有理智的人”会将她的指控视为事实。她和她的代表都没有发表评论。' metadata={'title': '唐纳德·特朗普起诉:我们对六名共谋者了解多少?', 'link': 'https://www.bbc.com/news/world-us-canada-66388172', 'authors': [], 'language': 'en', 'description': '检察官描述了六名被指控帮助特朗普破坏选举的人。', 'publish_date': None}

第二篇文章: page_content='威廉姆斯女士补充说:“如果有什么我可以做的事情,以确保与她合作的舞者或歌手或任何人不必经历同样的经历,我会这样做。”' metadata={'title': 'Lizzo舞者Arianna Davis和Crystal Williams:“没有人说话,他们害怕”', 'link': 'https://www.bbc.com/news/entertainment-arts-66384971', 'authors': [], 'language': 'en', 'description': '这位美国流行歌手因性骚扰和嘲笑肥胖而被起诉,但尚未发表评论。', 'publish_date': None}

使用nlp=True运行nlp分析并生成关键词和摘要

loader = NewsURLLoader(urls=urls, nlp=True)
data = loader.load()
print("第一篇文章:", data[0])
print("\n第二篇文章:", data[1])
    第一篇文章: page_content='在国会委员会审查1月6日骚乱时,鲍威尔夫人表示,她没有审查她提出的所有关于选举舞弊的许多指控,告诉他们“没有理智的人”会将她的指控视为事实。她和她的代表都没有发表评论。' metadata={'title': '唐纳德·特朗普起诉:我们对六名共谋者了解多少?', 'link': 'https://www.bbc.com/news/world-us-canada-66388172', 'authors': [], 'language': 'en', 'description': '检察官描述了六名被指控帮助特朗普破坏选举的人。', 'publish_date': None, 'keywords': ['powell', 'know', 'donald', 'trump', 'review', 'indictment', 'telling', 'view', 'reasonable', 'person', 'testimony', 'coconspirators', 'riot', 'representatives', 'claims'], 'summary': '在国会委员会审查1月6日骚乱时,鲍威尔夫人表示,她没有审查她提出的所有关于选举舞弊的许多指控,告诉他们“没有理智的人”会将她的指控视为事实。\n她和她的代表都没有发表评论。'}

第二篇文章: page_content='威廉姆斯女士补充说:“如果有什么我可以做的事情,以确保与她合作的舞者或歌手或任何人不必经历同样的经历,我会这样做。”' metadata={'title': 'Lizzo舞者Arianna Davis和Crystal Williams:“没有人说话,他们害怕”', 'link': 'https://www.bbc.com/news/entertainment-arts-66384971', 'authors': [], 'language': 'en', 'description': '这位美国流行歌手因性骚扰和嘲笑肥胖而被起诉,但尚未发表评论。', 'publish_date': None, 'keywords': ['davis', 'lizzo', 'singers', 'experience', 'crystal', 'ensure', 'arianna', 'theres', 'williams', 'power', 'going', 'dancers', 'im', 'speaks', 'work', 'ms', 'scared'], 'summary': '威廉姆斯女士补充说:“如果有什么我可以做的事情,以确保与她合作的舞者或歌手或任何人不必经历同样的经历,我会这样做。”'}
data[0].metadata['keywords']
    ['powell',
'know',
'donald',
'trump',
'review',
'indictment',
'telling',
'view',
'reasonable',
'person',
'testimony',
'coconspirators',
'riot',
'representatives',
'claims']
data[0].metadata['summary']
    '在国会委员会审查1月6日骚乱时,鲍威尔夫人表示,她没有审查她提出的所有关于选举舞弊的许多指控,告诉他们“没有理智的人”会将她的指控视为事实。\n她和她的代表都没有发表评论。'