从网站下载文件进行解析

Downloading files from a website to parse

所以我正在开发一个 python 应用程序,它使用来自

的数据

http://censtats.census.gov/cgi-bin/cbpnaic/cbpsect.pl

我已经创建了一个解析器,它可以从 .txt 文件中解析我需要的数据,您可以从页面底部的每个数据集中下载这些文件。但是,我想让它动态化,以便它可以用于任何数据集,而不仅仅是我下载的数据集。无论如何我可以使用 python 从网站上获取文本文件吗?这些文件以相同的名称下载,所以我真的不知道该怎么做。

html 按钮代码:

    <form method=post action=/cgi-bin/cbpnaic/cbpsect.txt>
<input name=Year value=2013 type=hidden><input name=County value=017 type=hidden><input name=State value=38 type=hidden><input name=Noise value=YES type=hidden><input name=LFO value=YES type=hidden><input type=submit value="Save as text file.">
</form>

当然有可能。不过需要做一些工作:

  1. urllib3 for downloading things from the internet. (Somewhat easier to use, but not in base Python, is the requests library)。
  2. 由于使用 POST http 命令请求文件,请检查您引用的页面的 HTML 来源,以查看您必须在 POST 命令中发送哪些参数获取您想要的页面(提示,它位于 <form></form> 标记之间。例如,您需要将 state=19 添加到 POST 查询以获取状态数据爱荷华州
  3. 在1.的下载命令中,可以指定要保存的文件名,可以根据2.的参数构造