如何選擇代理IP?這個問題因為python訓(xùn)練中的爬蟲被問了無數(shù)次。一般來說,同性戀朋友問也是爬行動物用來防止禁令。一般來說,好的質(zhì)量不便宜,便宜的質(zhì)量相對較低,一分錢一分貨。
1)代理人在整個程序中被淘汰
通過程序掃描IP段和端口找到臨時代理。
比如百度搜索“HTTP代理”,上面寫著“每日更新”、“國內(nèi)高低免費”等等,買起來都很便宜。
他們基本一樣,沒有誰好誰壞,幾個平臺提供的代理,重復(fù)率至少30%。
這種代理,有效期不高,即使批量驗證,使用的時候還是會部分廢除,可以應(yīng)付低效的收集和單次訪問,但是忘了做別的。
2)ADSL撥號服務(wù)器
ADSL撥號,斷開再連接IP,淘寶賣,有限區(qū)域撥號,全國撥號。相對穩(wěn)定,至少比掃描的IP強(qiáng)很多,但是切換IP需要很長時間,需要幾秒到一分鐘。
所以,如果采集是每次訪問切一次IP,效率會比較慢,只能在當(dāng)前IP被對方封禁掉的情況下才能撥打新的IP。
ADSL撥號可以應(yīng)對收藏、刷訪問、刷點擊等。效率不高。
3)第三方訪問
比如通過谷歌網(wǎng)頁翻譯、有道網(wǎng)頁翻譯、http Proxy Browser等第三方訪問渠道請求目標(biāo)網(wǎng)頁。
速度慢,采集捕捉目標(biāo)內(nèi)容時干擾大。
4)動態(tài)IP模擬器軟件
HTTP代理
比如“flyvpn”和“greenvpn”,集合的意思是直接用ban改IP,而動態(tài)IP模擬器軟件本身的可靠代理相當(dāng)穩(wěn)定,就是人要在電腦旁邊,手動改。但是偶爾查一下百度幾萬個關(guān)鍵詞的排名和幾萬個頁面的收錄情況,使用VPN還是挺悠閑的,這個量級總共也改變不了多少次。
5)自建代理
買一個服務(wù)器,用squid+stunnel搭建一個HTTP代理服務(wù)器。Tinyproxy就行。Squit用于實現(xiàn)http代理,stunnel在代理上搭建隧道實現(xiàn)加密。
如果你覺得ip數(shù)量少,那就多買幾臺服務(wù)器,配置squid~~
因為都是自建代理,都是獨家真實的IP,都相當(dāng)穩(wěn)定。收藏、搶購、刷票、刷點擊、刷主播人氣什么的,只要有錢就能上飛機(jī)~ ~
去年收到爬蟲列表,搶到一個國外股票網(wǎng)站,總頁面數(shù)千萬。反爬蟲惡心,無奈之下買了20臺低配機(jī)做HTTP代理服務(wù)器,一個月5000元~ ~
5)自建代理服務(wù)商
懶得做以上方法也沒關(guān)系。找一個做類似服務(wù)的企業(yè),開一個api端口。
這里推薦IP模擬器代理,專業(yè)的IP代理。