網絡爬蟲沒有代理IP能流暢運行嗎?很多人認為爬蟲必須使用代理IP,沒有代理IP就很難移動,也有人認為代理IP沒有必要。那么他們這么想的原因是什么呢?
有個朋友說他用機車收藏家收集了一些文章,然后篩選出符合自己要求的文章進行加工。他從來不用代理IP,一天收一萬篇左右,他認為沒有代理IP。
一個朋友說他寫了一個爬蟲程序,公司的任務是一天爬幾十萬個頁面。有時候任務多的時候,一天就要幾百萬。搶IP的時候會被屏蔽。沒有代理IP,根本不可能。他認為,如果沒有代理IP爬蟲,這是不可能的。
顯然他們說的都很有道理,都用自己的經歷證明了自己的觀點。其實爬蟲本質上就是訪問網頁的用戶,只是一個沒有那么自律的特殊用戶,而服務器一般不歡迎這種特殊用戶,所以總是會用各種手段去尋找和封殺他們。最常見的就是判斷你的訪問頻率,因為普通人訪問網頁的頻率并不是很快。如果發現一個IP訪問速度太快,就會禁止它。
工作量不是很大的時候,也就是像第一個朋友那樣,可以慢慢爬,頻率不是很快。在目標服務器看來,是可以忍受的,不影響正常運行,這樣IP就不會被屏蔽,所以他可以不用代理IP完成日常任務。
當任務量比較大的時候,比如第二個朋友,一天幾十萬幾百萬的數據,如果爬得慢,就無法完成任務。如果他爬得快,目標服務器壓力太大,IP被封,任務無法完成。我能怎么做呢?僅通過代理IP。
比如一個IP短時間內被訪問100次,就會被目標服務器認為太快,導致IP被屏蔽。但如果10個代理IP在短時間內被訪問10次,就不算太快被屏蔽了。任務巨大的時候,使用代理IP往往能事半功倍,這也是為什么有人認為沒有代理IP就沒有網絡爬蟲。