需要一個爬蟲IP代理來收集數據,由于之前公司項目的需要,我們收集了地圖數據和一些大型網站的數據。
1. 一個代理IP是必需的,非常正確,ADSL。如果條件允許,您實際上可以向機房申請外部IP。
2.在具有外部IP的機器上部署代理服務器。
3. 您的計劃使用輪轉訓練而不是代理服務器來訪問您想要收藏的網站。
好處:
1. 程序邏輯變化不大,只需要代理函數。
2. 根據對方網站的不同被封規則,您只需再添加幾個代理即可。
3. 如果一個特定的IP被封,可以使用代理服務器登出而不改變程序邏輯。
首先,我想通過代理購買一些代理IP,比如動態IP模擬器它提供了許多國內代理IP服務器地址,您可以從這里抓取,后來我用的是ADSL。缺點是需要斷開網絡,重新撥號,在斷開連接的過程中,爬行器在沒有負載的情況下運行。如果您對實時數據有特殊要求,則需要規劃解決方案。