如何使用 .iter_content 正确读取大块 html?

How to properly read large html in chunks with .iter_content?

所以,我是一个非常业余的 python 程序员,但希望我所解释的一切都是有意义的。

我想抓取一种名为“10-K”的财务文件。我只对整个文档的一小部分感兴趣。我尝试抓取的 URL 的一个示例是:https://www.sec.gov/Archives/edgar/data/320193/0000320193-20-000096.txt

现在,如果我将此文档下载为 .txt,它“仅”重 12mb。因此,由于我的无知并没有多大意义,这需要 1-2 分钟才能 .read()(即使我有一台像样的 PC)。

我使用的原代码:

from urllib.request import urlopen
url = 'https://www.sec.gov/Archives/edgar/data/320193/0000320193-20-000096.txt'

response = urlopen(url)
document = response.read()

在此之后,我基本上将整个文档分成 <DOCUMENT>data</DOCUMENT> 部分,并使用 for 循环搜索每个文档数据中是否存在一些关键字,如 <strong>CONSOLIDATED BALANCE SHEETS 告诉我有a table 我想刮。所有这些都以常规方式进行(如果需要可以共享代码),因为我已经尝试过 bs4 和其他解析器并且是我的低级别的 PITA。 table 解析的正确文档是使用 df.read_html()

完成的

所以现在我的做法是这样的:

import requests
KeyWord = b'<strong>CONSOLIDATED BALANCE SHEETS'
interesting_chunk = b''

document = requests.get(url)

for chunk in document.iter_content(10000):
     if KeyWord in chunk:
          interesting_chunk = chunk
     else:
          continue

然后,我搜索 <DOCUMENT>

的开始和结束
doc_start_pos = interesting_chunk.find(b'<DOCUMENT>')
doc_end_pos  = interesting_chunk[doc_start_pos:].find(b'</DOCUMENT>')

final_document = interesting_chunk[doc_start_pos:doc_end_pos]

这里的问题:

所以我考虑过使用另一个字符串来保存循环中的前一个块,所以如果我找到 KeyWord,我仍然能够对前一个和当前块求和并找到 DOCUMENT 开头和结尾,我可以继续迭代直到下一个 </DOCUMENT>

但是遇到了拆分KeyWord的问题,不知道怎么处理。它是随机的,它是一个大文件,而且不太可能,但如果我使用小块,那就没那么困难了。我如何避免在两个块之间拆分关键字?

还有 IDK 块的最佳大小应该是什么...

通过 Internet 阅读文档所需的时间实际上与计算机的速度无关,至少在大多数情况下是这样。最重要的决定因素是您的互联网连接速度。另一个重要的决定因素是远程服务器响应您的请求的速度,这在一定程度上取决于远程服务器当前尝试处理的其他请求数量。

也有可能速度变慢不是由于上述任一原因,而是远程服务器为限制抓取或避免拥塞而采取的措施。服务器故意降低对发出频繁请求的客户端的响应,甚至完全拒绝请求是很常见的。或者降低向所有人传输数据的速度,这是控制服务器负载的另一种方式。在这种情况下,您将无法加快阅读请求的速度。

在我的机器上,下载 12MB 的文档需要不到 30 秒的时间。由于我在秘鲁,互联网连接的速度可能是一个因素,但我怀疑这不是唯一的问题。但是,数据传输开始得相当快。

如果问题与您的机器和服务器之间的数据传输速度有关,您可以使用 流式分析器(您可以搜索的短语).流式解析器以小块的形式读取其输入,并将它们动态地组装成标记,这基本上就是您要尝试做的事情。但是流式解析器将透明地处理最困难的部分,即避免令牌在两个块之间拆分。然而,从整体上看,SEC 文件的性质并不是很纯粹 HTML,可能会导致难以使用标准工具。

由于您要分析的文档部分已经超过了中间部分,至少在您提供的示例中,您将无法减少多少下载时间。但这可能仍然是值得的。

您描述的基本方法是可行的,但您需要对其进行一些更改,以应对在块之间拆分的搜索字符串,如您所述。基本思想是 追加 连续的块,直到找到字符串,而不是一次只看一个。

我建议首先识别整个文档,然后再确定它是否是您想要的文档。这将搜索问题减少到单个字符串,文档终止符(\n</DOCUMENT>\n;添加换行符以减少错误匹配的可能性)。

这是一个非常粗略的实现,我建议您将其作为示例而不是将其复制到您的程序中。函数 docs 从 url 中生成连续的完整文档;来电者可以使用它 select 他们想要的那个。 (在示例代码中,使用了第一个匹配文档,虽然完整的文件中实际上有两个匹配。如果你想要所有匹配,那么你将不得不读取整个输入,这样你就没有任何速度-up ,尽管您可能仍然可以节省一些费用,因为不必解析所有内容。)

from urllib.request import urlopen
def docs(url):
    with urlopen(url) as f:
        buff = b''
        fence = b'\n</DOCUMENT>\n'
        while True:
            chunk = f.read(65536)
            if not chunk: break
                start = max(0, len(buff) - len(fence))
                buff += chunk
                end = buff.find(fence, start)
                if end != -1: 
                    end += len(fence)
                    yield buff[find(buff, b'<DOCUMENT>'):end]
        buff = buff[end:]

url = 'https://www.sec.gov/Archives/edgar/data/320193/0000320193-20-000096.txt'
keyword = b'<strong>CONSOLIDATED BALANCE SHEETS'

for document in docs(url):
    if keyword in document:
        # Process document
        break