當(dāng)我們訪問網(wǎng)頁時,我們經(jīng)常會遇到一些403錯誤。這是什么意思?
403禁是HTTP協(xié)議中的一個狀態(tài)碼,表示沒有權(quán)限訪問這個站。每當(dāng)出現(xiàn)這種403錯誤時,意味著服務(wù)器理解請求,但拒絕執(zhí)行任務(wù),請求不應(yīng)重新傳輸?shù)椒?wù)器。當(dāng)HTTP請求的方法不是“HEAD”,服務(wù)器想讓客戶端知道為什么沒有權(quán)限時,服務(wù)器應(yīng)該在返回的信息中描述拒絕的原因。
如果服務(wù)器不想提供任何反饋信息,服務(wù)器可以將403禁止替換為404未找到。
哪些場景通常會返回403個錯誤:
1.用戶訪問只能由內(nèi)部網(wǎng)訪問的文件;
2.訪問禁止瀏覽的目錄,比如設(shè)置autoindex關(guān)閉后訪問目錄;
3.網(wǎng)站禁止特定用戶訪問所有內(nèi)容,例如,網(wǎng)站阻止ip訪問。
上面分享了三個需要返回403個錯誤的常見場景。為了防止返回403,防止爬蟲被攔截,我們在抓取數(shù)據(jù)時需要及時更換不同的IPs。python使用代理爬行方法:
對于代理商的選擇,最好選擇好一點的。而且自由代理不穩(wěn)定,可用率太低,不高,安全性不高。爬行要花很多時間,或者使用IP代理要花一點錢,既高效又放心。邊肖使用的IP模擬器代理也很好,穩(wěn)定性和可用性可靠,沒有問題。