網(wǎng)絡(luò)爬蟲(chóng)沒(méi)有代理IP能正常運(yùn)行上網(wǎng)嗎?爬蟲(chóng)一定要用代理IP嗎?很多人認(rèn)為爬蟲(chóng)必須使用代理IP,沒(méi)有代理IP就很難移動(dòng),也有人認(rèn)為代理IP沒(méi)有必要。那么他們這么想的原因是什么呢?
有個(gè)朋友說(shuō)他用機(jī)車收藏家收集了一些文章,然后篩選出符合自己要求的文章進(jìn)行加工。他從來(lái)不用代理IP,一天收一萬(wàn)篇左右。他認(rèn)為沒(méi)有代理IP。
一個(gè)朋友說(shuō)他寫(xiě)了一個(gè)爬蟲(chóng)程序,公司的任務(wù)是一天爬幾十萬(wàn)個(gè)頁(yè)面。有時(shí)候任務(wù)多的時(shí)候,一天就要幾百萬(wàn)。搶IP的時(shí)候會(huì)被屏蔽。沒(méi)有代理IP,是不可能的。他認(rèn)為,沒(méi)有代理IP爬蟲(chóng)很難移動(dòng)。
顯然他們說(shuō)的都很有道理,都用自己的經(jīng)歷證明了自己的觀點(diǎn)。其實(shí)爬蟲(chóng)本質(zhì)上就是訪問(wèn)網(wǎng)頁(yè)的用戶,只是一個(gè)沒(méi)有那么自律的特殊用戶,而服務(wù)器一般不歡迎這種特殊用戶,所以總是會(huì)用各種手段去尋找和封殺他們。最常見(jiàn)的就是判斷你的訪問(wèn)頻率,因?yàn)槠胀ㄈ嗽L問(wèn)網(wǎng)頁(yè)的頻率并不是很快。如果發(fā)現(xiàn)一個(gè)IP訪問(wèn)速度太快,就會(huì)禁止它。
工作量不是很大的時(shí)候,也就是像第一個(gè)朋友那樣,可以慢慢爬,頻率不是很快。在目標(biāo)服務(wù)器看來(lái),是可以忍受的,不影響正常運(yùn)行,這樣IP就不會(huì)被屏蔽,所以他可以不用代理IP完成日常任務(wù)。
當(dāng)任務(wù)量比較大的時(shí)候,比如第二個(gè)朋友,一天幾十萬(wàn)幾百萬(wàn)的數(shù)據(jù),如果爬得慢,就無(wú)法完成任務(wù)。如果他爬得快,目標(biāo)服務(wù)器壓力太大,IP被封,任務(wù)無(wú)法完成。我能怎么做呢??jī)H通過(guò)代理IP。
比如一個(gè)IP短時(shí)間內(nèi)被訪問(wèn)100次,就會(huì)被目標(biāo)服務(wù)器認(rèn)為太快,導(dǎo)致IP被屏蔽。但如果10個(gè)代理IP在短時(shí)間內(nèi)被訪問(wèn)10次,就不算太快被屏蔽了。任務(wù)巨大的時(shí)候,使用代理IP往往能事半功倍,這也是為什么有人認(rèn)為沒(méi)有代理IP就沒(méi)有網(wǎng)絡(luò)爬蟲(chóng)。