為了防止郵件爬蟲和其他惡意網絡,爬蟲會將自己偽裝成瀏覽器或其他眾所周知的網絡爬蟲。使用http請求的用戶代理字段向網絡服務器指示他們的身份。網絡管理員檢查網絡服務器的日志,并使用IP代理字段來識別哪個爬網程序已經訪問過以及訪問的頻率,可能包含允許管理員獲取有關爬網程序的更多信息的URL。
一般來說爬蟲有足夠的ip,不容易被硬化。而一些中小網站想屏蔽你,寧愿花高成本,把你全部抓起來;因為大多數網站沒有虛擬專用網,所以它們使用虛擬空間或PAAS云,如SAE、BAE。其實就算他們不考慮SEO (Search Engine Optimization),用ajax渲染網頁數據,我也可以用webkit瀏覽器組件處理ajax后的數據。也可以尋找IP代理網站,抓取ip進行動態輪詢,或者使用他人制作的第三方ip代理平臺來解決上述問題。
但是,也有一些網站不夠忙,他就是喜歡從日志里一行行分析你的ip,然后統計高頻的網站。這個時候該怎么辦?其實方法很簡單,就是使用大量的主機,還要保證爬蟲種子的數量,多個ip是沒有問題的。通過一些比較傷腦細胞的策略,我們能不能把爬蟲完全偽裝成網友的瀏覽行為,從而避開大多數反爬蟲的策略。