如何使用 python scrapy 解析 html 字符串
How to parse a html string using python scrapy
我有一个包含 html 个输入元素的列表,如下所示。
lists=[<input type="hidden" name="csrf_token" value="jZdkrMumEBeXQlUTbOWfInDwNhtVHGSxKyPvaipoAFsYqCgRLJzc">,
<input type="text" class="form-control" id="username" name="username">,
<input type="password" class="form-control" id="password" name="password">,
<input type="submit" value="Login" class="btn btn-primary">]
我需要从中提取 name、type 和 value[=25= 的属性值]
例如:
考虑输入 <input type="hidden" name="csrf_token" value="jZdkrMumEBeXQlUTbOWfInDwNhtVHGSxKyPvaipoAFsYqCgRLJzc">
然后我需要输出如下字典格式
{'csrf_token':('hidden',"jZdkrMumEBeXQlUTbOWfInDwNhtVHGSxKyPvaipoAFsYqCgRLJzc")}
谁能请指导解决这个问题
我建议您使用 Beautiful Soup Python 库 (https://pypi.org/project/beautifulsoup4/) 来获取 HTML 内容和元素的值。已经为此目的创建了函数。
我有一个包含 html 个输入元素的列表,如下所示。
lists=[<input type="hidden" name="csrf_token" value="jZdkrMumEBeXQlUTbOWfInDwNhtVHGSxKyPvaipoAFsYqCgRLJzc">,
<input type="text" class="form-control" id="username" name="username">,
<input type="password" class="form-control" id="password" name="password">,
<input type="submit" value="Login" class="btn btn-primary">]
我需要从中提取 name、type 和 value[=25= 的属性值]
例如:
考虑输入 <input type="hidden" name="csrf_token" value="jZdkrMumEBeXQlUTbOWfInDwNhtVHGSxKyPvaipoAFsYqCgRLJzc">
然后我需要输出如下字典格式
{'csrf_token':('hidden',"jZdkrMumEBeXQlUTbOWfInDwNhtVHGSxKyPvaipoAFsYqCgRLJzc")}
谁能请指导解决这个问题
我建议您使用 Beautiful Soup Python 库 (https://pypi.org/project/beautifulsoup4/) 来获取 HTML 内容和元素的值。已经为此目的创建了函数。