如何抓取代理ip?當我們使用網絡編寫腳本從指定的網站抓取數據時,網站總是不可避免的會屏蔽IP,所以這個時候我們需要一些代理IP。當我們打開網頁的時候,很容易就能找到很多提供免費代理IP做IP抓取的網站,這里介紹的是國內匿名代理IP。
第一步:HTML頁面獲取
通過觀察,我們可以發現我們需要的信息的頁面的url有這樣一個規律:www.xxxxxx.com/nn/+頁碼。但是,如果您通過get方法直接訪問它,您將發現500個錯誤。原因是在這個規則下,雖然URL通過get方法獲取數據,但是它們都有cookie認證。那么問題來了——你怎么得到你需要的餅干?我們第一次通過瀏覽器訪問網站首頁,是可以打開的,網站的所有子模塊都可以打開。在一定時間內,我們的瀏覽器得到了這個網站設置的cookie。清除瀏覽器cookie,重新打開網站主頁,通過開發者工具,我們可以發現打開主頁時,網站會發出cookie,而不是上傳cookie。然后打開上面我們找到的常規url頁面,對比一下,發現我們上傳的cookie就是首頁發布的cookie。這就是解決方案——編寫腳本時,首先訪問主頁獲取cookie,然后將cookie添加到后續請求中。
第二步:分析html結構,用BS4提取信息。
上面簡單介紹了如何抓取代理IP,具體代碼需要自己搜索。