Apache Beam：如何从 HTML URL 中提取数据？

Question

我愿意使用 Apache Beam 从 URL 而不是文件中获取数据输入。我找不到它的一些内置方法。有什么办法吗？

Answer 1

没有用于获取网站 HTML 内容的内置源 PTransform。也就是说，您可以编写自己的 DoFn (https://beam.apache.org/documentation/programming-guide/#requirements-for-writing-user-code-for-beam-transforms)。

您的管道将如下所示：

with beam.Pipeline() as p:
    result = (p
       | "Create input data" >> beam.Create([list_of_urls_to_fetch])
       | "Fetch HTML Content" >> beam.Map(CustomDoFn)

其中 CustomDoFn 接收 URL 列表作为输入，并使用您选择的库获取其 HTML 内容。

Apache Beam：如何从 HTML URL 中提取数据？

Apache Beam: How to extract data from an HTML URL?

html

python-3.x

apache-beam