Python

Question

这是我从网站获取源代码的部分代码：

#Header dictionary
headers = {}
#Header for websites
headers['User-Agent'] = "Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.27 Safari/537.17"

#Urllib code
req = urllib.request.Request(url, headers=headers)
resp = urllib.request.urlopen(req)
respData = resp.read()

这有效，但是即使我使用这个程序，我的 Malwarebytes 也会阻止一些网站。有什么办法可以绕过这个块吗？

我想获取源代码并可能将其写入 txt 文件，除了 避免恶意内容 之外，没有 Malwarebytes 阻止任何东西。

Answer 1

第三方程序 (Malwarebytes) 正在控制进出您计算机的网络流量。你受这个软件的摆布。

除非该程序提供绕过其检查的方法（我非常怀疑），否则建议是

禁用恶意软件字节
运行您的 Python 脚本在另一台计算机上
联系 Malwarebytes 如何调整他们的程序以允许您的脚本（他们极不可能有任何绕过机制，否则他们会对单个人做任何例外）

此外，作为进一步的安全建议，我建议您运行并在 Linux 虚拟机内的浏览器运行中访问恶意软件站点。

Answer 2

如果您真的相信 url 您正在尝试访问，并且您的脚本会访问它并与之交互没有问题（因为，您应该认真考虑也许 malewarebytes 实际上正在这样做作业），您可以将请求的 IP 添加到 "Web Exclusion" 列表中。只需按照 these instructions 或打开 malewarebytes > 设置 > Web Exclusions 并按您的逻辑进行操作（非常简单）。

现在，您问了：

I want to [...] all without Malwarebytes blocking anything but avoiding malicious stuff.

看，这不可能。要么你相信 malewarebytes 来决定什么是恶意的，什么不是，或你自己决定。你不能同时拥有这两种方式——因为这里没有两种方式。 MB 应该只阻止恶意的东西，如果它发出误报，唯一可以告诉计算机忽略这些的人是你，而且，当你这样做时，你运行 风险自负。

Python - 使用 urllib 绕过 Malwarebytes 阻止的网站？

Python - bypass Malwarebytes blocked websites with urllib?

block

urllib