我們為什么要設置動態ip?

我們在使用Python爬蟲爬取一個網站的時候,通常會頻繁訪問該網站。 假設一個網站可以檢測到某個IP地址在一定時間內的訪問次數,如果該IP地址在一定時間內持續被訪問并且訪問次數遠遠超過正常用戶的訪問次數 ,則該網站將禁止該IP地址繼續訪問。 因此,這時候可以設置一些代理服務器來幫助您完成工作。 每次訪問時間過長或者訪問頻率特別高的時候,可以換一個IP代理,這樣就不會因為訪問頻繁而被禁止了,訪問現象。  
 
我們在學習Python爬蟲的時候,經常會遇到想要爬取的網站采用了反爬取技術,導致爬取失敗。 網頁信息的高強度、高效率爬取,往往給網絡服務器帶來巨大壓力。 因此,如果同一個IP重復爬取同一個網頁,極有可能被攔截。 所以下面這篇文章介紹了一個爬蟲技巧,設置代理IP 
 
這里我們介紹一個代理IP,Rhino代理,只需要使用
 
配置環境
 
來安裝requests  library
 
安裝bs4庫
 
安裝lxml庫
 
具體代碼
 
不多說,直接上傳代碼
 
 
function get_ip_list(url, headers) 傳入url和headers,最后返回一個IP列表。 列表的元素類似于 122.114.31.177:808 的格式。 這個列表包括國內隱藏代理IP網站首頁的所有IP地址和端口 
 
函數 get_random_ip(ip_list) 傳入第一個函數得到的列表,并返回一個隨機代理。 這個代理可以傳遞給請求的get方法,這樣每次運行都可以使用不同的IP訪問被爬取的網站,有效避免真實IP被屏蔽的風險
 
代理格式是 一本字典:{'http':'http://122.114.31.177:808'},可以改下面的執行也封裝了一個方法
 
為了抓取IP,Xspur代理的服務器做了反爬蟲處理。 如果頻繁抓取,服務器會主動返回503錯誤提示block,所以在請求的時候可以先一次保存一個文件讀取這個文件,或者抓取一個ip使用幾分鐘,然后 再爬一次,相當于加了一個計時函數 
 
使用代理IP 
 
運行上面的代碼會得到一個隨機的代理,可以直接傳入request的get方法 
 
動態IP模擬器
主站蜘蛛池模板: 国产精品亚洲专区无码WEB| 久久这里只有精品66re99| 久久99精品久久久久久国产| 男人桶女人爽羞羞漫画| 女人双腿搬开让男人桶| 亚洲人成人无码网www国产| 精精国产www视频在线观看免费| 国产精品第5页| 中文亚洲成a人片在线观看| 欧美人与性动交α欧美精品| 午夜a级理论片在线播放| 四虎在线成人免费网站| 婷婷99视频精品全部在线观看| 乱人伦视频中文字幕| 特级毛片a级毛片免费播放| 国产亚洲精品自在久久| 69久久夜色精品国产69| 成品人视频ww入口| 亚洲av永久综合在线观看尤物| 精品一区二区视频在线观看| 国产强被迫伦姧在线观看无码| av无码精品一区二区三区四区| 日本视频免费高清一本18| 亚洲热妇无码av在线播放| 老子影院午夜伦手机不四虎| 国产福利一区二区三区在线视频| 一区二区三区免费在线视频| 日韩在线视频免费看| 亚洲欧美4444kkkk| 精品无码一区二区三区在线 | 精品国产91久久久久久久a| 国产小视频91| 九九影院理论片在线观看一级 | 亚洲午夜久久久精品电影院| 直接在线观看的三级网址| 国产又色又爽又黄刺激在线视频| 30岁的女人韩剧免费观看| 好吊妞在线成人免费| 久久91精品国产一区二区| 最近免费韩国电影hd视频| 亚洲精品中文字幕无乱码麻豆|