Apache Beam:如何从 HTML URL 中提取数据?
Apache Beam: How to extract data from an HTML URL?
我愿意使用 Apache Beam 从 URL 而不是文件中获取数据输入。我找不到它的一些内置方法。有什么办法吗?
没有用于获取网站 HTML 内容的内置源 PTransform。也就是说,您可以编写自己的 DoFn (https://beam.apache.org/documentation/programming-guide/#requirements-for-writing-user-code-for-beam-transforms)。
您的管道将如下所示:
with beam.Pipeline() as p:
result = (p
| "Create input data" >> beam.Create([list_of_urls_to_fetch])
| "Fetch HTML Content" >> beam.Map(CustomDoFn)
其中 CustomDoFn
接收 URL 列表作为输入,并使用您选择的库获取其 HTML 内容。
我愿意使用 Apache Beam 从 URL 而不是文件中获取数据输入。我找不到它的一些内置方法。有什么办法吗?
没有用于获取网站 HTML 内容的内置源 PTransform。也就是说,您可以编写自己的 DoFn (https://beam.apache.org/documentation/programming-guide/#requirements-for-writing-user-code-for-beam-transforms)。
您的管道将如下所示:
with beam.Pipeline() as p:
result = (p
| "Create input data" >> beam.Create([list_of_urls_to_fetch])
| "Fetch HTML Content" >> beam.Map(CustomDoFn)
其中 CustomDoFn
接收 URL 列表作为输入,并使用您选择的库获取其 HTML 内容。