我們能得到的IP資源是有限的,但是如果需要使用大量的IP地址,我們?cè)撛趺崔k呢?如何挖掘IP代理資源?
IP代理可以替代IP,我們也可以購買IP代理來獲取大量的IP資源,但前提是要花錢。我就用它。用這么多IP地址的很少見。有什么省錢的方法嗎?
如果你想在不花錢的情況下找到IP代理資源,邊肖建議在互聯(lián)網(wǎng)上搜索,因?yàn)榛ヂ?lián)網(wǎng)上有很多IP代理資源。搜索方法如下:
利用互聯(lián)網(wǎng)上開放的IP代理平臺(tái),直接在瀏覽器中搜索,就可以獲得IP。
代理有四種類型:國內(nèi)高級(jí)代理、國內(nèi)普通代理、國內(nèi)HTTPS代理和國內(nèi)HTTP代理。以國內(nèi)HTTPS代理為例,抓取網(wǎng)站上的代理IP信息。python代碼的核心實(shí)現(xiàn)如下(Python新手,Daniel輕噴):
動(dòng)態(tài)IP模擬器
處理后得到的代理IP格式如下:
動(dòng)態(tài)IP模擬器
可以看到,抓取的代理IP的格式為:IP、端口、代表類型、存活天數(shù)、發(fā)現(xiàn)日期和時(shí)間。以下信息存儲(chǔ)在數(shù)據(jù)庫中,以便于檢索和搜索。在這種情況下,個(gè)人選擇mysql數(shù)據(jù)庫并將相關(guān)數(shù)據(jù)導(dǎo)入mysql,總共有29,700個(gè)https代理,如下所示:
收集這些IP地址后,有必要驗(yàn)證并提取可用的代理。驗(yàn)證代理是否可用的方法很多,批量驗(yàn)證可以使用python。其中,驗(yàn)證代理是否可用的方法是使用代理直接訪問Baidu.com。如果返回狀態(tài)為200,則代理可用。否則,意味著不可用。
身份驗(yàn)證基于之前收集的HTTPS代理:
提取HTTPS代理的IP和端口,并將其保存在本地測試文件中。測試文件格式如下:
動(dòng)態(tài)IP模擬器
驗(yàn)證代理是否可用的python代碼如下:
動(dòng)態(tài)IP模擬器
提取已驗(yàn)證的代理IP地址和端口號(hào),如下所示:
動(dòng)態(tài)IP模擬器
選擇驗(yàn)證成功的進(jìn)行測試,并成功正常使用。
通過以上研究,我們對(duì)如何挖掘IP代理資源有了一定的了解。如果這個(gè)方法還是比較繁瑣的話,我們可以使用IP模擬器代理,支持API接口提取海量IP地址,而且它們匿名性高,使用安全。