沒有代理IP,網(wǎng)絡(luò)爬蟲會受到限制嗎?很多人認(rèn)為爬蟲必須使用代理IP,沒有代理IP是很困難的。也有人說代理IP沒有必要,那么他們?yōu)槭裁磿@樣想呢
有朋友說,他用的摩托車收集器是用來收集一些物品,然后按照自己的要求進行加工的。他從不使用代理IP,每天收集大約1萬篇文章。他覺得不用代理就能抓取IP照片。
一個朋友說,他自己寫了一個爬蟲程序。該公司的任務(wù)是每天抓取成千上萬的網(wǎng)頁。有時候,當(dāng)有很多任務(wù)的時候,一天可以花費數(shù)百萬。在抓取ip時,它被阻塞。沒有代理IP是不可能的。他認(rèn)為,沒有代理IP爬蟲,這是不可能的。顯然,他們說的很有道理,他們都用親身經(jīng)歷來證明自己的觀點。實上,爬蟲本質(zhì)上只是一個訪問網(wǎng)頁的用戶。只是一個不遵守規(guī)則的特殊用戶。服務(wù)器一般不歡迎這類總是被發(fā)現(xiàn)并通過各種手段被禁止的特殊用戶。最常用的方法是確定你的訪問頻率,因為普通人訪問網(wǎng)頁的速度不會很快。如果發(fā)現(xiàn)某個IP訪問速度過快,它將被禁止。
當(dāng)工作量不是很大的時候,也就是像第一個朋友一樣,可以慢慢爬,但頻率不是很快。這對目標(biāo)服務(wù)器來說似乎是可以承受的,并且不會影響正常的操作,所以它不會阻止IP,這樣就可以在沒有代理IP的情況下完成日常工作負(fù)載。當(dāng)任務(wù)量比較大的時候,比如第二個朋友,一天有幾十萬幾百萬的數(shù)據(jù)量,就無法慢慢完成任務(wù)。如果你加速爬升,目標(biāo)服務(wù)器會因壓力過大而被IP阻塞,你將無法完成任務(wù)。能怎么辦,必須使用代理IP來解決它。
例如,如果一個IP在短時間內(nèi)被訪問100次,目標(biāo)服務(wù)器會認(rèn)為訪問速度太快,導(dǎo)致IP被阻塞。但是,如果10個代理IP在短時間內(nèi)被訪問10次,也不會被認(rèn)為速度太快而被封鎖。在工作量巨大的時候,使用代理IP往往可以事半功倍,這也是為什么有人認(rèn)為沒有代理IP就沒有網(wǎng)絡(luò)爬蟲的原因。