很多從事爬蟲業務的人發現,他們使用的是一個穩定的代理IP,并控制訪問速度和頻率。他們發現,有時候爬蟲工作會遇到各種問題,工作無法順利進行,然后如何解決爬蟲使用代理IP后遇到的問題。
分布式爬蟲,爬行時,可以采用一種分布式的方法,有一定的幾率起到反爬行的作用,也可以增加爬行量。
保存cookie,模擬登錄比較麻煩的時候,可以直接登錄網頁,刪除cookie并保存,然后將cookie作為爬蟲使用,但這不是長久之計,cookie可能過一段時間就失效了。
多帳戶防爬,很多網站會通過在一段固定的時間內訪問賬戶的頻率來判斷它是否是機器人。在這種情況下,可以測試單個Account的固定時間值,時間快到的時候再切換代理IP,這樣就可以循環抓取了。
驗證碼的問題,爬蟲經常會在很長一段時間后遇到驗證碼的問題。這是為了驗證你不是機器人,不是為了認可你是爬蟲類機器人。第一種解決方法:遇到這種情況,可以將驗證碼下載到本地,然后手動輸入驗證碼進行驗證。這種方法成本很高,不能完全自動捕獲,需要人工干預。第二種解決方案:驗證碼可以通過圖像識別自動填寫,但目前的驗證碼大多比較復雜,不熟悉圖像識別的話無法識別正確的驗證碼。第三種解決方案:可以訪問自動編碼平臺。這個是最方便的,不過你需要購買。
不同的網站有不同的反爬行方法,一套爬行策略不會適用于任何一個網站。因此,需要根據具體情況進行分析,不斷地進行測試和分析過程,找出本網站的反爬蟲策略,這樣才能事半功倍。