由于代理IP分布在全國(guó)各地,線路多,集群結(jié)構(gòu)復(fù)雜,部分線路不時(shí)升級(jí),代理鏈路可能會(huì)偶爾斷開。平臺(tái)提供雙機(jī)熱備份代理服務(wù)器(切換時(shí)間約1分鐘),保證代理服務(wù)實(shí)時(shí)上線,爬蟲程序需要相應(yīng)優(yōu)化,有兩種選擇:
(1)自動(dòng)更新代理IP提取鏈接(優(yōu)先級(jí)推薦,實(shí)時(shí)更新)。
爬蟲程序需要啟動(dòng)一個(gè)專用線程,每隔1分鐘訪問(wèn)一次“代理提取鏈接”。如果代理IP和端口發(fā)生變化,爬蟲需要自動(dòng)更新代理信息。(由于爬蟲服務(wù)器的外部網(wǎng)絡(luò)IP的更改或其他網(wǎng)絡(luò)原因,獲取代理信息可能偶爾會(huì)失敗。重新發(fā)起請(qǐng)求就可以了)。
(2)域名訪問(wèn)方式(長(zhǎng)延時(shí)被動(dòng)更新)。
通知專門的客服開啟“域名訪問(wèn)模式”,爬蟲程序通過(guò)“域名和端口”連接到代理服務(wù)器。定期檢查平臺(tái)。一旦檢測(cè)到在線代理服務(wù)器中的異常,則在后臺(tái)更新該域名。由于DNS服務(wù)器的同步時(shí)間較長(zhǎng),在線檢測(cè)間隔較長(zhǎng),這種解決方案不失為一種替代方案。