selenium+python設置爬蟲代理IP的方法
1.設置后臺
是使用selenium瀏覽器渲染技術,當我們爬取某個網站的信息時 ,一般情況下,速度不是特別快。 另外,需要使用selenium瀏覽器渲染技術進行爬取的網站,反爬蟲響應技術都比較強大,對IP訪問的頻率有很大的限制。 因此,如果要提高selenium爬取數據的速度,可以從兩個方面入手:
第一,爬取頻率要提高,出現的驗證信息 破解一般是驗證碼或者用戶登錄。
第二個方面是使用多線程+代理IP。 這種方法需要電腦有足夠的內存和足夠穩定的代理IP。
2。 為chrome
動態IP模擬器設置代理IP
注意:
一、選擇一個穩定固定的代理IP。 不要選擇動態代理IP。 我們常用的爬蟲IP代理一般都是高度匿名的動態IP,保密性高,通過撥號動態生成,時效很短,一般3分鐘左右。 非常適合高并發不需要登錄的爬蟲,比如scrapy,但是不適合瀏覽器渲染的爬蟲。
二、選擇更快的代理IP。 因為selenium爬蟲使用瀏覽器渲染技術,這種瀏覽器渲染技術天生就慢。 如果選擇的代理IP較慢,則爬取時間會進一步增加。
三、必須有足夠的電腦內存。 由于chrome占用大量內存,在高并發的情況下,很容易導致瀏覽器崩潰,即程序崩潰。
四、程序最后調用browser.quit()清除瀏覽器緩存。
3。 需要用戶名和密碼認證的代理