如何使用 .iter_content 正确读取大块 html？

Question

所以，我是一个非常业余的 python 程序员，但希望我所解释的一切都是有意义的。

我想抓取一种名为“10-K”的财务文件。我只对整个文档的一小部分感兴趣。我尝试抓取的 URL 的一个示例是：https://www.sec.gov/Archives/edgar/data/320193/0000320193-20-000096.txt

现在，如果我将此文档下载为 .txt，它“仅”重 12mb。因此，由于我的无知并没有多大意义，这需要 1-2 分钟才能 .read()（即使我有一台像样的 PC）。

我使用的原代码：

from urllib.request import urlopen
url = 'https://www.sec.gov/Archives/edgar/data/320193/0000320193-20-000096.txt'

response = urlopen(url)
document = response.read()

在此之后，我基本上将整个文档分成 <DOCUMENT>data</DOCUMENT> 部分，并使用 for 循环搜索每个文档数据中是否存在一些关键字，如 <strong>CONSOLIDATED BALANCE SHEETS 告诉我有a table 我想刮。所有这些都以常规方式进行（如果需要可以共享代码），因为我已经尝试过 bs4 和其他解析器并且是我的低级别的 PITA。 table 解析的正确文档是使用 df.read_html()

完成的

所以现在我的做法是这样的：

import requests
KeyWord = b'<strong>CONSOLIDATED BALANCE SHEETS'
interesting_chunk = b''

document = requests.get(url)

for chunk in document.iter_content(10000):
     if KeyWord in chunk:
          interesting_chunk = chunk
     else:
          continue

然后，我搜索 <DOCUMENT>

的开始和结束

doc_start_pos = interesting_chunk.find(b'<DOCUMENT>')
doc_end_pos  = interesting_chunk[doc_start_pos:].find(b'</DOCUMENT>')

final_document = interesting_chunk[doc_start_pos:doc_end_pos]

这里的问题：

KeyWord 可能会分成两块，所以我找不到它。
同样适用于 <DOCUMENT> 开始和结束，甚至这些根本不会出现在块中。

所以我考虑过使用另一个字符串来保存循环中的前一个块，所以如果我找到 KeyWord，我仍然能够对前一个和当前块求和并找到 DOCUMENT 开头和结尾，我可以继续迭代直到下一个 </DOCUMENT>

但是遇到了拆分KeyWord的问题，不知道怎么处理。它是随机的，它是一个大文件，而且不太可能，但如果我使用小块，那就没那么困难了。我如何避免在两个块之间拆分关键字？

还有 IDK 块的最佳大小应该是什么...

Answer 1

通过 Internet 阅读文档所需的时间实际上与计算机的速度无关，至少在大多数情况下是这样。最重要的决定因素是您的互联网连接速度。另一个重要的决定因素是远程服务器响应您的请求的速度，这在一定程度上取决于远程服务器当前尝试处理的其他请求数量。

也有可能速度变慢不是由于上述任一原因，而是远程服务器为限制抓取或避免拥塞而采取的措施。服务器故意降低对发出频繁请求的客户端的响应，甚至完全拒绝请求是很常见的。或者降低向所有人传输数据的速度，这是控制服务器负载的另一种方式。在这种情况下，您将无法加快阅读请求的速度。

在我的机器上，下载 12MB 的文档需要不到 30 秒的时间。由于我在秘鲁，互联网连接的速度可能是一个因素，但我怀疑这不是唯一的问题。但是，数据传输开始得相当快。

如果问题与您的机器和服务器之间的数据传输速度有关，您可以使用 流式分析器（您可以搜索的短语).流式解析器以小块的形式读取其输入，并将它们动态地组装成标记，这基本上就是您要尝试做的事情。但是流式解析器将透明地处理最困难的部分，即避免令牌在两个块之间拆分。然而，从整体上看，SEC 文件的性质并不是很纯粹 HTML，可能会导致难以使用标准工具。

由于您要分析的文档部分已经超过了中间部分，至少在您提供的示例中，您将无法减少多少下载时间。但这可能仍然是值得的。

您描述的基本方法是可行的，但您需要对其进行一些更改，以应对在块之间拆分的搜索字符串，如您所述。基本思想是追加连续的块，直到找到字符串，而不是一次只看一个。

我建议首先识别整个文档，然后再确定它是否是您想要的文档。这将搜索问题减少到单个字符串，文档终止符（\n</DOCUMENT>\n；添加换行符以减少错误匹配的可能性）。

这是一个非常粗略的实现，我建议您将其作为示例而不是将其复制到您的程序中。函数 docs 从 url 中生成连续的完整文档；来电者可以使用它 select 他们想要的那个。（在示例代码中，使用了第一个匹配文档，虽然完整的文件中实际上有两个匹配。如果你想要所有匹配，那么你将不得不读取整个输入，这样你就没有任何速度-up ，尽管您可能仍然可以节省一些费用，因为不必解析所有内容。）

from urllib.request import urlopen
def docs(url):
    with urlopen(url) as f:
        buff = b''
        fence = b'\n</DOCUMENT>\n'
        while True:
            chunk = f.read(65536)
            if not chunk: break
                start = max(0, len(buff) - len(fence))
                buff += chunk
                end = buff.find(fence, start)
                if end != -1: 
                    end += len(fence)
                    yield buff[find(buff, b'<DOCUMENT>'):end]
        buff = buff[end:]

url = 'https://www.sec.gov/Archives/edgar/data/320193/0000320193-20-000096.txt'
keyword = b'<strong>CONSOLIDATED BALANCE SHEETS'

for document in docs(url):
    if keyword in document:
        # Process document
        break

如何使用 .iter_content 正确读取大块 html？

How to properly read large html in chunks with .iter_content?

html

python

parsing

chunks