沒有代理IP,網絡爬蟲會受到限制嗎?很多人認為爬蟲必須使用代理IP,沒有代理IP是很困難的。也有人說代理IP沒有必要,那么他們為什么會這樣想呢
有朋友說,他用的摩托車收集器是用來收集一些物品,然后按照自己的要求進行加工的。他從不使用代理IP,每天收集大約1萬篇文章。他覺得不用代理就能抓取IP照片。
一個朋友說,他自己寫了一個爬蟲程序。該公司的任務是每天抓取成千上萬的網頁。有時候,當有很多任務的時候,一天可以花費數百萬。在抓取ip時,它被阻塞。沒有代理IP是不可能的。他認為,沒有代理IP爬蟲,這是不可能的。顯然,他們說的很有道理,他們都用親身經歷來證明自己的觀點。實上,爬蟲本質上只是一個訪問網頁的用戶。只是一個不遵守規則的特殊用戶。服務器一般不歡迎這類總是被發現并通過各種手段被禁止的特殊用戶。最常用的方法是確定你的訪問頻率,因為普通人訪問網頁的速度不會很快。如果發現某個IP訪問速度過快,它將被禁止。
當工作量不是很大的時候,也就是像第一個朋友一樣,可以慢慢爬,但頻率不是很快。這對目標服務器來說似乎是可以承受的,并且不會影響正常的操作,所以它不會阻止IP,這樣就可以在沒有代理IP的情況下完成日常工作負載。當任務量比較大的時候,比如第二個朋友,一天有幾十萬幾百萬的數據量,就無法慢慢完成任務。如果你加速爬升,目標服務器會因壓力過大而被IP阻塞,你將無法完成任務。能怎么辦,必須使用代理IP來解決它。
例如,如果一個IP在短時間內被訪問100次,目標服務器會認為訪問速度太快,導致IP被阻塞。但是,如果10個代理IP在短時間內被訪問10次,也不會被認為速度太快而被封鎖。在工作量巨大的時候,使用代理IP往往可以事半功倍,這也是為什么有人認為沒有代理IP就沒有網絡爬蟲的原因。