如何使用 python scrapy 解析 html 字符串

Question

我有一个包含 html 个输入元素的列表，如下所示。

lists=[<input type="hidden" name="csrf_token" value="jZdkrMumEBeXQlUTbOWfInDwNhtVHGSxKyPvaipoAFsYqCgRLJzc">,
<input type="text" class="form-control" id="username" name="username">,
<input type="password" class="form-control" id="password" name="password">,
<input type="submit" value="Login" class="btn btn-primary">]

我需要从中提取 name、type 和 value[=25= 的属性值]

例如：考虑输入 <input type="hidden" name="csrf_token" value="jZdkrMumEBeXQlUTbOWfInDwNhtVHGSxKyPvaipoAFsYqCgRLJzc"> 然后我需要输出如下字典格式 {'csrf_token':('hidden',"jZdkrMumEBeXQlUTbOWfInDwNhtVHGSxKyPvaipoAFsYqCgRLJzc")}

谁能请指导解决这个问题

Answer 1

我建议您使用 Beautiful Soup Python 库 (https://pypi.org/project/beautifulsoup4/) 来获取 HTML 内容和元素的值。已经为此目的创建了函数。

如何使用 python scrapy 解析 html 字符串

How to parse a html string using python scrapy

python

dictionary

html-parsing

scrapy