網(wǎng)絡(luò)爬蟲(chóng)需要爬蟲(chóng)代理IP嗎?一些爬蟲(chóng)工作者說(shuō),爬蟲(chóng)最好使用代理IP,而另一些人說(shuō),不使用代理IP也可以。那么他們這樣說(shuō)的理由是什么呢。
有網(wǎng)友說(shuō),他使用的摩托車(chē)收集器被用來(lái)收集一些物品,然后篩選出那些符合他的加工要求的。他從不使用代理IP,每天收到大約10,000篇文章。他認(rèn)為沒(méi)有代理IP。
一個(gè)朋友說(shuō),他寫(xiě)了一個(gè)爬蟲(chóng)程序,公司的任務(wù)是一天抓取幾十萬(wàn)個(gè)頁(yè)面。有時(shí)當(dāng)有許多任務(wù),它可以花費(fèi)數(shù)百萬(wàn)一天。當(dāng)抓取IP時(shí)會(huì)被阻塞。沒(méi)有代理IP是不可能的。他認(rèn)為,沒(méi)有代理IP爬蟲(chóng),很難移動(dòng)。他們都用自己的親身經(jīng)歷驗(yàn)證了自己的觀點(diǎn)。事實(shí)上,爬蟲(chóng)本質(zhì)上是一個(gè)訪問(wèn)網(wǎng)頁(yè)的用戶,但它只是一個(gè)不那么自律的特殊用戶。一般的服務(wù)器并不歡迎這樣的特殊用戶,他們總是會(huì)被發(fā)現(xiàn)并通過(guò)各種手段封鎖。
最常用的方法是確定你的訪問(wèn)頻率,因?yàn)槠胀ㄈ嗽L問(wèn)網(wǎng)頁(yè)的速度不會(huì)很快。如果一個(gè)IP訪問(wèn)速度被發(fā)現(xiàn)太快,它將被禁止。當(dāng)任務(wù)量不是很大的時(shí)候,也就是像第一個(gè)朋友一樣,可以慢慢爬也不能很快。從目標(biāo)服務(wù)器的角度來(lái)說(shuō),是可以容忍的,不影響正常運(yùn)行,這樣IP就不會(huì)被阻塞,所以他可以在不代理IP的情況下完成日常任務(wù)。
當(dāng)任務(wù)量比較大的時(shí)候,比如第二位朋友,一天幾十萬(wàn)幾百萬(wàn)的數(shù)據(jù)量,你爬得慢也會(huì)完不成任務(wù)。如果爬升速度加快,目標(biāo)服務(wù)器將承受太大的壓力,其IP將被阻塞,無(wú)法完成任務(wù)。我能做什么。只能靠代理IP來(lái)解決。
例如,如果一個(gè)IP在短時(shí)間內(nèi)被訪問(wèn)100次,目標(biāo)服務(wù)器會(huì)認(rèn)為速度太快,導(dǎo)致IP被阻塞。但如果10個(gè)代理IP在短時(shí)間內(nèi)被訪問(wèn)10次,就不會(huì)被認(rèn)為太快而被屏蔽。當(dāng)任務(wù)量很大時(shí),使用IP模擬器來(lái)代理IP往往可以達(dá)到事半功倍的效果。這就是為什么有些人認(rèn)為沒(méi)有代理IP就沒(méi)有網(wǎng)絡(luò)爬蟲(chóng)。