由于單線程爬行受到限制,無法在短時(shí)間內(nèi)完成大量的爬行工作,所以大家都會(huì)使用多線程來解決這個(gè)問題,提高爬蟲的爬行速度。然而,這里有一個(gè)問題。線程過多會(huì)影響設(shè)備的正常運(yùn)行,可能導(dǎo)致內(nèi)存過高、延遲或阻塞。對(duì)此我該怎么辦?
如何解決多線程問題?如果解決不了,那我們就不能無限期的使用多線程,這樣也會(huì)影響效率。那么為什么抓起來沒有問題呢?這就涉及到線程池的問題。
什么是線程池?
線程池是多線程的一種形式,在處理過程中將任務(wù)添加到隊(duì)列中,然后在創(chuàng)建線程后自動(dòng)啟動(dòng)這些任務(wù)。線程池線程都是后臺(tái)線程。每個(gè)線程使用默認(rèn)的堆棧大小,以默認(rèn)的優(yōu)先級(jí)運(yùn)行,并處于多線程單元中。如果一個(gè)線程在托管代碼中處于空閑狀態(tài)(例如等待一個(gè)事件),線程池將插入另一個(gè)工作線程來保持所有處理器忙碌。如果線程池中的所有線程總是忙碌的,但是隊(duì)列包含掛起的工作,則線程池將在一段時(shí)間后創(chuàng)建另一個(gè)工作線程,但是線程的數(shù)量永遠(yuǎn)不會(huì)超過最大值。超過最大值的線程可以排隊(duì),但在其他線程完成之前,它們不會(huì)啟動(dòng)。
使用線程池有什么好處?
1.更快的反應(yīng)。
線程池可以為多個(gè)任務(wù)重用線程,當(dāng)請(qǐng)求到達(dá)時(shí)線程已經(jīng)存在(如果有空閑線程的話),所以無意中消除了線程創(chuàng)建帶來的延遲。這樣,請(qǐng)求可以立即得到服務(wù),使應(yīng)用程序響應(yīng)更快。
2.減少消費(fèi)。
合理配置線程池中的線程大小,防止請(qǐng)求線程暴漲;此外,通過重用創(chuàng)建的線程,減少了線程創(chuàng)建和銷毀造成的消耗,防止了資源短缺。
3.易處理
使用線程池可以提高線程的可管理性,因?yàn)槭褂镁€程池可以統(tǒng)一分配、調(diào)整和監(jiān)控線程。
可以看出,當(dāng)我們使用爬蟲抓取信息時(shí),使用線程池有很多優(yōu)點(diǎn)。另外,在使用線程池時(shí),要注意與代理IP的匹配。使用不同的IP可以突破IP的限制,提高抓取效率,取長(zhǎng)補(bǔ)短。