我們能得到的IP資源是有限的,但是如果需要使用大量的IP地址,我們該怎么辦呢?如何挖掘IP代理資源?
IP代理可以替代IP,我們也可以購買IP代理來獲取大量的IP資源,但前提是要花錢。我就用它。用這么多IP地址的很少見。有什么省錢的方法嗎?
如果你想在不花錢的情況下找到IP代理資源,邊肖建議在互聯(lián)網(wǎng)上搜索,因為互聯(lián)網(wǎng)上有很多IP代理資源。搜索方法如下:
利用互聯(lián)網(wǎng)上開放的IP代理平臺,直接在瀏覽器中搜索,就可以獲得IP。
代理有四種類型:國內(nèi)高級代理、國內(nèi)普通代理、國內(nèi)HTTPS代理和國內(nèi)HTTP代理。以國內(nèi)HTTPS代理為例,抓取網(wǎng)站上的代理IP信息。python代碼的核心實現(xiàn)如下(Python新手,Daniel輕噴):
動態(tài)IP模擬器
處理后得到的代理IP格式如下:
動態(tài)IP模擬器
可以看到,抓取的代理IP的格式為:IP、端口、代表類型、存活天數(shù)、發(fā)現(xiàn)日期和時間。以下信息存儲在數(shù)據(jù)庫中,以便于檢索和搜索。在這種情況下,個人選擇mysql數(shù)據(jù)庫并將相關(guān)數(shù)據(jù)導(dǎo)入mysql,總共有29,700個https代理,如下所示:
收集這些IP地址后,有必要驗證并提取可用的代理。驗證代理是否可用的方法很多,批量驗證可以使用python。其中,驗證代理是否可用的方法是使用代理直接訪問Baidu.com。如果返回狀態(tài)為200,則代理可用。否則,意味著不可用。
身份驗證基于之前收集的HTTPS代理:
提取HTTPS代理的IP和端口,并將其保存在本地測試文件中。測試文件格式如下:
動態(tài)IP模擬器
驗證代理是否可用的python代碼如下:
動態(tài)IP模擬器
提取已驗證的代理IP地址和端口號,如下所示:
動態(tài)IP模擬器
選擇驗證成功的進(jìn)行測試,并成功正常使用。
通過以上研究,我們對如何挖掘IP代理資源有了一定的了解。如果這個方法還是比較繁瑣的話,我們可以使用IP模擬器代理,支持API接口提取海量IP地址,而且它們匿名性高,使用安全。
IP模擬器