解析数据的HTML存储格式

Question

我从一个网站提取了一种HTML存储格式标记语言。信息采用表格格式，如网站所示：但是在我使用 curl 命令提取信息后，我得到了 HTML 形式的信息。请告知如何使用 Python 解析此信息，以便我只能收集数据。也许我们可以将数据插入到列表中，例如 [[CALX-582 Action-Item]、[CALX-736 Action-Item]......]。是否有任何 Python-API 可以做到这一点？或者是否建议只使用 REGEX 并解析所需的数据。

<pre><br /></pre>
<p class="auto-cursor-target"><br /></p>
<table><colgroup><col /><col /></colgroup>
<tbody>
<tr>
<th>JIRA</th>
<th>Type</th></tr>
<tr>
<td>CALX-582</td>
<td><span>Action-Item</span></td></tr>
<tr>
<td>CALX-736</td>
<td><span>Action-Item</span></td></tr>
<tr>
<td>CALX-735</td>
<td><span>Action-Item</span></td></tr>
<tr>
<td>CALX-792</td>
<td><span>Action-Item</span></td></tr>
<tr>
<td>CALX-1563</td>
<td><span>Action-Item</span></td></tr>
<tr>
<td>CALX-1567</td>
<td><span>Action-Item</span></td></tr>
<tr>
<td>CALX-1861</td>
<td>Bug</td></tr></tbody></table>
<p class="auto-cursor-target"><br /><br /></p>

Answer 1

如前所述，您可以使用 BeautifulSoup。

不确定您想要数据的方式，但下面的代码将创建一个字典列表，其中的键来自 JIRA 列，值来自 Type 列。

您可以使用其他方法将数据放入其他类型的结构中。

from bs4 import BeautifulSoup

html = """
<pre><br /></pre>
<p class="auto-cursor-target"><br /></p>
<table><colgroup><col /><col /></colgroup>
<tbody>
<tr>
<th>JIRA</th>
<th>Type</th></tr>
<tr>
<td>CALX-582</td>
<td><span>Action-Item</span></td></tr>
<tr>
<td>CALX-736</td>
<td><span>Action-Item</span></td></tr>
<tr>
<td>CALX-735</td>
<td><span>Action-Item</span></td></tr>
<tr>
<td>CALX-792</td>
<td><span>Action-Item</span></td></tr>
<tr>
<td>CALX-1563</td>
<td><span>Action-Item</span></td></tr>
<tr>
<td>CALX-1567</td>
<td><span>Action-Item</span></td></tr>
<tr>
<td>CALX-1861</td>
<td>Bug</td></tr></tbody></table>
<p class="auto-cursor-target"><br /><br /></p>
"""

soup = BeautifulSoup(html, 'html.parser')

jira = soup.select('td')

data = [{jira[idx].getText(): jira[idx+1].getText()} for idx in  range(0, len(jira), 2)]

print(data)

解析数据的HTML存储格式

Parse HTML storage format for data

html

python

curl

html-table