如何選擇代理IP?這個問題因為python訓練中的爬蟲被問了無數次。一般來說,同性戀朋友問也是爬行動物用來防止禁令。一般來說,好的質量不便宜,便宜的質量相對較低,一分錢一分貨。
1)代理人在整個程序中被淘汰
通過程序掃描IP段和端口找到臨時代理。
比如百度搜索“HTTP代理”,上面寫著“每日更新”、“國內高低免費”等等,買起來都很便宜。
他們基本一樣,沒有誰好誰壞,幾個平臺提供的代理,重復率至少30%。
這種代理,有效期不高,即使批量驗證,使用的時候還是會部分廢除,可以應付低效的收集和單次訪問,但是忘了做別的。
2)ADSL撥號服務器
ADSL撥號,斷開再連接IP,淘寶賣,有限區域撥號,全國撥號。相對穩定,至少比掃描的IP強很多,但是切換IP需要很長時間,需要幾秒到一分鐘。
所以,如果采集是每次訪問切一次IP,效率會比較慢,只能在當前IP被對方封禁掉的情況下才能撥打新的IP。
ADSL撥號可以應對收藏、刷訪問、刷點擊等。效率不高。
3)第三方訪問
比如通過谷歌網頁翻譯、有道網頁翻譯、http Proxy Browser等第三方訪問渠道請求目標網頁。
速度慢,采集捕捉目標內容時干擾大。
4)動態IP模擬器軟件
HTTP代理
比如“flyvpn”和“greenvpn”,集合的意思是直接用ban改IP,而動態IP模擬器軟件本身的可靠代理相當穩定,就是人要在電腦旁邊,手動改。但是偶爾查一下百度幾萬個關鍵詞的排名和幾萬個頁面的收錄情況,使用VPN還是挺悠閑的,這個量級總共也改變不了多少次。
5)自建代理
買一個服務器,用squid+stunnel搭建一個HTTP代理服務器。Tinyproxy就行。Squit用于實現http代理,stunnel在代理上搭建隧道實現加密。
如果你覺得ip數量少,那就多買幾臺服務器,配置squid~~
因為都是自建代理,都是獨家真實的IP,都相當穩定。收藏、搶購、刷票、刷點擊、刷主播人氣什么的,只要有錢就能上飛機~ ~
去年收到爬蟲列表,搶到一個國外股票網站,總頁面數千萬。反爬蟲惡心,無奈之下買了20臺低配機做HTTP代理服務器,一個月5000元~ ~
5)自建代理服務商
懶得做以上方法也沒關系。找一個做類似服務的企業,開一個api端口。
這里推薦IP模擬器代理,專業的IP代理。