有時候爬蟲會遇到ip被禁的情況,這時候可以找代理網(wǎng)站,抓取ip,做動態(tài)輪詢。也可以使用別人做的第三方ip代理平臺,比如Crawler,就是利用代理IP地址池做分布式下載的第三方平臺,除了scrapy、普通java、php、python等。
現(xiàn)在我們可以總結(jié)所有步驟:
1.使用爬蟲腳本每天定時抓取代理網(wǎng)站上的免費(fèi)ip,或者購買一定量的ip,寫入MongoDB或其他數(shù)據(jù)庫。此表用作原始表。
2.在使用它之前,你需要做一個步驟測試,即測試ip是否有效。方法是用curl訪問網(wǎng)站檢查返回值,需要新建一個表,循環(huán)讀取原表并在有效時插入,驗(yàn)證后從原表中刪除。在驗(yàn)證的同時,您可以使用響應(yīng)時間來計(jì)算ip的質(zhì)量和最大使用次數(shù),有一種算法可以參考基于連接代理優(yōu)化管理的多線程網(wǎng)絡(luò)爬蟲處理方法。
3.將有效ip寫入IP模擬器代理的配置文件,并重新加載配置文件。
4.讓爬蟲程序去指定的服務(wù)ip和端口并抓取它。