在一大堆專業術語中,最廣為人知的大概就是“網絡爬蟲”了。事實上,網絡爬蟲的名字已經顯示了這種技術的作用,特別是像密集的蠕蟲一樣在網絡上均勻分布,使用http代理IP爬行到每個網站以獲得數據;也在一定程度上表達了人們對這項技術的情感傾向——爬行動物可能是無害的,但總是不受歡迎。
為了防止同一個代理IP訪問同一個網站,該IP長時間訪問同一個網站極有可能被屏蔽。
解決技術含量高的IP代理問題很方便,找代理也方便省事。
成本低維護服務器本身的成本太高,不亞于長期可持續發展。
有一種說法是,互聯網上60%的流量是由網絡爬蟲創造的。這種說法雖然有些夸張,但也反映了網絡爬蟲的無處不在。爬蟲無處不在,因為能給互聯網公司帶來收益。