網(wǎng)絡(luò)爬蟲需要爬蟲代理IP嗎?有爬蟲工作者說爬蟲用代理IP比較好,也有人說不用代理IP也可以。那么他們這么說的理由是什么呢?
有網(wǎng)友說他用的機(jī)車收集器是用來收集一些文章,然后篩選出符合自己要求的進(jìn)行加工。他從來不用代理IP,一天收一萬篇左右。他認(rèn)為沒有代理IP。
有朋友說自己寫爬蟲程序,公司的任務(wù)是一天爬幾十萬個(gè)頁面。有時(shí)候任務(wù)多的時(shí)候,一天就要幾百萬。抓取ip時(shí)會被屏蔽。沒有代理IP,是不可能的。他認(rèn)為,沒有代理IP爬蟲,就很難移動。
他們都用自己的親身經(jīng)歷驗(yàn)證了自己的觀點(diǎn)。實(shí)際上,爬蟲本質(zhì)上是訪問網(wǎng)頁的用戶,但它只是一個(gè)沒有那么自律的特殊用戶。一般服務(wù)器是不歡迎這種特殊用戶的,總會被各種手段找到并封殺。
最常見的就是判斷你的訪問頻率,因?yàn)槠胀ㄈ嗽L問網(wǎng)頁的頻率并不是很快。如果發(fā)現(xiàn)某個(gè)ip訪問速度過快,就會封禁。
任務(wù)量不是很大的時(shí)候,也就是像第一個(gè)朋友那樣,可以慢慢爬,頻率不是很快。在目標(biāo)服務(wù)器看來,是可以忍受的,而且不影響正常運(yùn)行,這樣IP就不會被屏蔽,所以他不用代理IP就可以完成每天的任務(wù)量。
任務(wù)量比較大的時(shí)候,比如第二個(gè)朋友,一天幾十萬上百萬的數(shù)據(jù),你慢慢爬是完不成任務(wù)的。如果加快爬升,目標(biāo)服務(wù)器壓力太大,IP被封,無法完成任務(wù)。我能怎么做呢?只靠代理IP解決。
比如一個(gè)IP短時(shí)間內(nèi)被訪問100次,就會被目標(biāo)服務(wù)器認(rèn)為速度太快,導(dǎo)致IP被屏蔽。但如果10個(gè)代理IP短時(shí)間內(nèi)被訪問10次,就不會被認(rèn)為太快而屏蔽。當(dāng)任務(wù)龐大時(shí),使用IP模擬器代理IP往往能事半功倍,這也是為什么有人認(rèn)為沒有代理IP就沒有網(wǎng)絡(luò)爬蟲。