花火網訊 網絡爬蟲歷史由來是怎么樣的,其實一開始僅僅是數據收集,后面才漸漸發展的越來越復雜。網絡爬蟲最早的用途是服務于搜索引擎的數據收集,而現代意義上的搜索引擎的鼻祖是1990年由加拿大麥吉爾大學(UniversityofMcGill)學生AlanEmtage發明的的Archie。
人們使用FTP服務器共享交流資源,大量的文件散布在各個FTP主機上,查詢起來非常不方便。因此,他開發了一個可以按照文件名查找文件的系統,能定期搜集并分析FTP服務器上的文件名信息,自動索引這些文件。工作原理與現在的搜索引擎已經非常接近,依靠腳本程序自動搜索分散在各處FTP主機中的文件,然后對有關信息進行索引,供使用者以一定的表達式查詢。
世界上第一個網絡爬蟲“互聯網漫游者”(“wwwwanderer”)是由麻省理工學院(MIT)的學生馬休·格雷(MatthewGray)在1993年寫成。剛開始,它只用來統計互聯網上的服務器數量,后來則發展為能夠通過它檢索網站域名。
隨著互聯網的迅速發展,使得檢索所有新出現的網頁變得越來越困難,因此,在“互聯網漫游者”基礎上,一些編程者將傳統的“蜘蛛”程序工作原理作了些改進。其設想是,既然所有網頁都可能有連向其他網站的鏈接,那么從跟蹤一個網站的鏈接開始,就有可能檢索整個互聯網。
其后,無數的搜索引擎促使了爬蟲越寫越復雜,并逐漸向多策略、負載均衡及大規模增量抓取等方向發展。爬蟲的工作成果是搜索引擎能夠遍歷鏈接的網頁,甚至被刪除的網頁也可以通過“網頁快照”的功能訪問。
以上就是小編整理的關于爬蟲歷史的資訊,網絡爬蟲發展歷史久遠,可以追溯到1990年。
此文由 網站目錄_網站網址收錄與提交入口 編輯,未經允許不得轉載!: