沒有代理IP,網(wǎng)絡(luò)爬蟲會(huì)被限制嗎?很多人認(rèn)為爬蟲必須使用代理IP,沒有代理IP就很難。也有人說,代理IP不是必須的。那么他們這樣想的原因是什么呢?
有朋友說,他用的機(jī)車收集器是用來收集一些物品,然后按照自己的要求進(jìn)行加工。他從來不用代理IP,一天大概收集一萬篇文章。他覺得不用代理IP照片也能爬。
一個(gè)朋友說他自己寫的爬蟲程序。該公司的任務(wù)是每天抓取數(shù)十萬頁。有時(shí)候,當(dāng)有很多任務(wù)時(shí),一天要花費(fèi)數(shù)百萬。爬行ip時(shí),它被阻止。沒有代理IP,是不可能的。他認(rèn)為沒有代理IP爬蟲,就不可能。
顯然,他們說的很有道理,他們都用親身經(jīng)歷證明了自己的觀點(diǎn)。事實(shí)上,爬蟲程序本質(zhì)上只是一個(gè)訪問網(wǎng)頁的用戶。只是一個(gè)不守規(guī)則的特殊用戶。服務(wù)器一般不歡迎這種總是被各種手段發(fā)現(xiàn)和禁止的特殊用戶。最常見的是判斷你的訪問頻率,因?yàn)槠胀ㄈ嗽L問網(wǎng)頁的頻率不是很快,如果發(fā)現(xiàn)某個(gè)ip訪問太快,就會(huì)被封禁。
當(dāng)工作量不是很大的時(shí)候,也就是像第一個(gè)朋友一樣,可以慢慢爬,但是頻率不是很快,這對(duì)于目標(biāo)服務(wù)器來說似乎是可以忍受的,也不影響正常運(yùn)行,這樣就不會(huì)封IP,這樣就可以在沒有代理IP的情況下完成每天的工作量。
當(dāng)任務(wù)量比較大的時(shí)候,比如第二個(gè)朋友,一天有幾十萬幾百萬的數(shù)據(jù),你就不能慢慢完成任務(wù)。如果你加快爬升速度,壓力過大目標(biāo)服務(wù)器會(huì)被IP封鎖,你也無法完成任務(wù)。我能怎么做呢?我得用代理IP來解決。
比如一個(gè)IP短時(shí)間內(nèi)被訪問100次,會(huì)被目標(biāo)服務(wù)器認(rèn)為訪問太快,導(dǎo)致IP被阻塞,而10個(gè)代理IP短時(shí)間內(nèi)被訪問10次,則不會(huì)被認(rèn)為太快而阻塞。當(dāng)任務(wù)量巨大時(shí),使用代理IP往往可以事半功倍,這也是為什么有人認(rèn)為沒有代理IP就沒有網(wǎng)絡(luò)爬蟲的原因。