爬蟲有哪些分類?常見的幾種網絡爬蟲

雖然爬蟲可以爬取網頁,獲取大量數據,但并不是所有的爬蟲都能實現這些功能。 爬蟲也有分類。 不同的爬蟲可以實現的功能是不一樣的,那么爬蟲有哪些分類呢? 這些不同的爬蟲能爬取什么? 下面通過IP模擬器代理來了解爬蟲的分類。  
 
根據授權情況
 
1。 惡意爬蟲
 
通過自行分析構造參數,爬取或提交數據到非公共接口,獲取對方不愿意被大量獲取的數據,可能對性能造成極大損失 對方的服務器。 爬蟲類和反爬蟲類之間通常會發生激烈的對抗。  
 
2。 合法爬蟲
 
對行為符合Robots協議規范的網頁進行抓取,或抓取互聯網公共接口,或購買接口授權進行抓取,均為合法爬蟲。 這類爬蟲通常不考慮反爬蟲等對抗性工作。  
 
 
根據爬蟲功能
 
1。 接口爬蟲
 
通過準確構造特定的API接口數據信息,獲取大量的請求數據。  
 
2。 網絡爬蟲
 
主要是搜索引擎爬蟲,根據網頁上的超鏈接進行遍歷爬取。  
 
 爬蟲分類 
 
根據爬取的網站數量 
 
1。增量爬蟲 
 
 增量更新是指更新時,只有 改變的地方更新,不變的地方不更新。 僅抓取內容更改的網頁或新生成的網頁。 在一定程度上,它可以保證被爬取的網頁盡可能是新的。  
 
2。 通用爬蟲 
 
 抓取目標資源 在整個互聯網中,抓取的目標數據是巨大的。 爬取性能要求非常高。 用于大型搜索引擎,具有非常高的應用價值。  
 
 爬行策略:有深度優先爬行策略和廣度優先爬行策略。  
 
 基本組成:初始URL采集、URL隊列、頁面爬取模塊、頁面分析模塊、頁面數據庫、鏈接過濾模塊等。 
 
3. 深層網絡爬蟲 
 
 表面網頁:無需提交表單即可使用靜態鏈接訪問的靜態網頁。  
 
深層網頁:隱藏在表單后面,無法通過靜態鏈接直接獲取,是提交特定關鍵字后才能獲取的網頁。  
 
 深度網絡爬蟲最重要的部分是表單填寫部分。  
 
 基本組成:URL列表、LVS列表(LVS指標簽/值集合,即填寫表單的數據源)爬蟲控制器、解析器、LVS控制器、表單分析器、表單處理器、響應 
 
 深度網絡爬蟲表單填寫有兩種類型: 
 
 基于領域知識的表單填寫(建立填寫表單的關鍵詞庫,需要時選擇對應的 關鍵根據語義分析詞填寫)。  
 
 基于網頁結構分析的表單填寫(通常在字段有限的情況下使用,該方法會分析網頁結構并自動填寫表單)。  
 
4。 專注于網絡爬蟲 
 
 將抓取目標定位在與主題相關的頁面中,主要用于抓取特定信息,主要為某類特定人群服務。  
 
爬取策略:基于內容評價的爬取策略、基于鏈接評價的爬取策略、基于強化學習的爬取策略、基于上下文圖的爬取策略、針對網絡爬蟲的具體爬取策略。  
 
 基本組成:初始URL、URL隊列、頁面抓取模塊、頁面分析模塊、頁面數據庫、連接過濾模塊、內容評估模塊、鏈接評估模塊等。 
 
 關于分類 爬蟲,上面介紹了三類爬蟲。 它們根據授權、功能和抓取網站的數量進行分類。 不同的爬蟲可以爬取不同的內容。 根據實際爬取需求,比如只爬取網頁的某一部分。 
主站蜘蛛池模板: 八戒网站免费观看视频| 欧美亚洲校园第一页| 国产精品白浆在线播放| 久久久久人妻一区精品色欧美| 男男gay做爽爽视频| 国产日韩一区二区三区在线播放| 97精品免费视频| 天天躁夜夜躁狠狠躁2021| 久久精品亚洲日本佐佐木明希| 色噜噜狠狠色综合欧洲selulu| 国产校园另类小说区| 18禁无遮挡羞羞污污污污免费 | 老司机午夜性生免费福利| 国产午夜鲁丝片AV无码| 99精品视频免费在线观看| 日本成本人视频| 亚洲AV无码久久| 狠狠色狠狠色综合日日五| 午夜爽爽性刺激一区二区视频| 午夜小视频在线| 国产精品水嫩水嫩| 88av免费观看| 少妇丰满大乳被男人揉捏视频| 中文字幕永久在线视频| 最近高清中文在线字幕在线观看 | 日本午夜精品一区二区三区电影| 亚洲欧美色一区二区三区| 美女黄视频免费| 国产一区二区三区在线观看免费| 青青青手机视频| 国产精品网址你懂的| 91精品欧美一区二区三区| 在线观看日本中文字幕| 中文在线观看免费网站| 日朝欧美亚洲精品| 亚洲另类激情专区小说图片| 欧美综合区自拍亚洲综合天堂 | 99re免费99re在线视频手机版| 天堂中文www资源在线| bt天堂资源在线种子| 新梅瓶1一5集在线观看|