采集數據必須要有爬蟲動態ip!

采集數據必須有爬蟲IP代理!由于之前公司項目的需要,我們收集了地圖數據和一些大型網站數據。
 
 
經驗如下:
 
1.必須要代理IP,非常正確,ADSL。有條件的話,其實可以跟機房申請外部IP。
 
2.在具有外部IP的機器上部署代理服務器。
 
3.你的程序,用輪訓代替代理服務器訪問你要收藏的網站。
 
好處:
 
1.程序邏輯變化小,只需要代理函數。
 
2.根據對方網站不同的屏蔽規則,你只需要多加幾個代理就可以了。
 
3.如果特定IP被屏蔽,使用代理服務器注銷是可以的,不需要改變程序邏輯。
 
一開始想通過proxy買一些代理IP,比如免費的Elf http proxy,它提供了很多國內的代理IP服務器地址,可以從這里搶http代理。后來用了ADSL。缺點是斷網再撥。在斷開過程中,爬蟲空載運行。如果對實時數據有特殊要求,需要做好方案規劃。
 
ADSL的另一個缺點是服務器廠商好像都是小作坊,不穩定。找一個長期穩定的伴侶也很重要。平均每2秒訪問一次,也就是被屏蔽的代理服務器的IP地址。所以要減緩爬行速度,但受限于總量和時間。這里有個問題:如果我平均訪問2秒多一點,我就永遠不會被屏蔽了嗎?你知道對方網站所有的屏蔽策略嗎?
 
根據現有條件,假設阻塞條件一定,每秒30分鐘10000頁的平均量是5.56次。如果沒有排班,用戶可以設置至少6行來完成抓拍(更正一下,應該是至少12行,比較著急,算錯了。
 
最終的解決方案是拉幾條電信ADSL線代理IP。光纖和電話線都可以。撥號可以用CMD。用了1000多年,10M光纖,4M電話線。自己買幾臺機器放著就行了。
 
主站蜘蛛池模板: 性xxxx视频播放免费| 性欧美激情videos| 操动漫美女视频| 久久综合88熟人妻| 欧美交换乱理伦片120秒| 亚洲精品视频免费观看| 精品国产三级a∨在线观看| 国产主播一区二区三区 | 人人妻人人澡人人爽超污| 精品无码成人片一区二区| 国产乱妇乱子在线播视频播放网站| 一级特黄女人生活片| 欧美亚洲另类综合| 亚洲精品免费在线| 男人j进女人p免费视频| 十六以下岁女子毛片免费 | 国产日韩精品欧美一区| 全免费毛片在线播放| 国产老妇伦国产熟女老妇高清| avtt在线播放| 女人与禽牲交少妇| 一区二区在线看| 成人午夜亚洲精品无码网站| 亚洲一二区视频| 欧美片免费观看网址| 亚洲精品成人区在线观看| 狠狠综合久久综合网站| 免费观看四虎精品国产永久 | 在线视频网址免费播放| loveme枫と铃樱花动漫| 日本成人不卡视频| 久久精品国产99久久久| 国产V亚洲V天堂无码久久久| 黄a大片av永久免费| 国产熟睡乱子伦视频| 青青草原视频在线观看| 国产精品美女一区二区视频| 91天仙tv嫩模福利| 国产视频一区在线| 91国视频在线| 无码欧精品亚洲日韩一区|