我們在做爬蟲的時候經常會遇到這樣的情況。剛開始的時候,爬蟲正常運行,正常捕獲數(shù)據(jù),一切看起來都那么美好。但在喝茶的時候可能會有誤區(qū),比如403禁。此時打開網頁,可能會看到提示“您的IP訪問頻率過高”,造成這種現(xiàn)象的原因是網站采取了一些防爬蟲措施。例如,服務器將檢測單位時間內對一個IP的請求數(shù),如果超過這個閾值,它將直接拒絕服務,并返回一些錯誤消息,這種情況可以稱為IP被封。
由于服務器檢測到某個IP的單位時間內的請求數(shù),我們可以以某種方式偽裝我們的IP,使服務器無法識別由我們的本地機器發(fā)起的請求,從而成功地防止IP被封。一個有效的方法是使用IP模擬器來代理最大的爬蟲代理服務提供商的IP。代理的用法將在后面詳細解釋。
我們可以看到官網提供了這種代理方式,就是IP代理。IP代理只給你IP和端口號,你可以使用它。一般可以根據(jù)自己的需要設置有效期。
首先,代理提供商將為您提供一個ip接口,通過它您可以獲得ip和端口號。但是這些IP的有效期是3分鐘,所以我設置了一個IP池,每兩分鐘更新一次IP池,以確保這些IP每次使用都是有效的(當然官網上說IP可用率大于99%)。