Python 并发未来，每个线程，每个代理

Question

所以我有这样的代码：

站点列表

a.com
b.com
c.com
d.com
e.com
etc

代理列表

1.1.1.1
2.2.2.2
etc

def extract(url, proxy):
    print(f'Thread Name : {threading.current_thread().name}')
    print(f'We are using this proxy : {proxy}')
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 Firefox/80.0'}
    try:
        r = requests.get(url, headers=headers, proxies={'http' : proxy,'https': proxy}, timeout=2)
        soup = BeautifulSoup(r.text, 'html.parser')
        page_title = soup.find('title').text.strip()
        print(page_title)
     except:
        pass

我需要循环提取功能，直到完成列表中的所有站点。据我所知，python 中有 concurent.futures，所以我尝试这样做：

with concurrent.futures.ThreadPoolExecutor(max_workers=2) as executor:
    executor.map(extract, url_list, proxy_list)

问题是，假设我只有 2 个有效代理，并且我有 5 个站点，代码将在仅 2 个代理中停止，

如何解决这个问题？所以我想要的是每个线程都有自己的代理，并完成任务，直到列表中的所有站点完成..

谢谢

Answer 1

使用 itertools.cycle 创建一个无限期重复您的代理的迭代器

with concurrent.futures.ThreadPoolExecutor(max_workers=2) as executor:
    executor.map(extract, url_list, itertools.cycle(proxy_list))

Python 并发未来，每个线程，每个代理

Python Concurent Future, Each Thread, Each Proxy

python

proxy

multithreading

beautifulsoup

python-requests