花火網(wǎng)訊 網(wǎng)絡(luò)爬蟲歷史由來是怎么樣的,其實一開始僅僅是數(shù)據(jù)收集,后面才漸漸發(fā)展的越來越復(fù)雜。網(wǎng)絡(luò)爬蟲最早的用途是服務(wù)于搜索引擎的數(shù)據(jù)收集,而現(xiàn)代意義上的搜索引擎的鼻祖是1990年由加拿大麥吉爾大學(xué)(UniversityofMcGill)學(xué)生AlanEmtage發(fā)明的的Archie。
人們使用FTP服務(wù)器共享交流資源,大量的文件散布在各個FTP主機上,查詢起來非常不方便。因此,他開發(fā)了一個可以按照文件名查找文件的系統(tǒng),能定期搜集并分析FTP服務(wù)器上的文件名信息,自動索引這些文件。工作原理與現(xiàn)在的搜索引擎已經(jīng)非常接近,依靠腳本程序自動搜索分散在各處FTP主機中的文件,然后對有關(guān)信息進行索引,供使用者以一定的表達式查詢。
世界上第一個網(wǎng)絡(luò)爬蟲“互聯(lián)網(wǎng)漫游者”(“wwwwanderer”)是由麻省理工學(xué)院(MIT)的學(xué)生馬休·格雷(MatthewGray)在1993年寫成。剛開始,它只用來統(tǒng)計互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來則發(fā)展為能夠通過它檢索網(wǎng)站域名。
隨著互聯(lián)網(wǎng)的迅速發(fā)展,使得檢索所有新出現(xiàn)的網(wǎng)頁變得越來越困難,因此,在“互聯(lián)網(wǎng)漫游者”基礎(chǔ)上,一些編程者將傳統(tǒng)的“蜘蛛”程序工作原理作了些改進。其設(shè)想是,既然所有網(wǎng)頁都可能有連向其他網(wǎng)站的鏈接,那么從跟蹤一個網(wǎng)站的鏈接開始,就有可能檢索整個互聯(lián)網(wǎng)。
其后,無數(shù)的搜索引擎促使了爬蟲越寫越復(fù)雜,并逐漸向多策略、負載均衡及大規(guī)模增量抓取等方向發(fā)展。爬蟲的工作成果是搜索引擎能夠遍歷鏈接的網(wǎng)頁,甚至被刪除的網(wǎng)頁也可以通過“網(wǎng)頁快照”的功能訪問。
以上就是小編整理的關(guān)于爬蟲歷史的資訊,網(wǎng)絡(luò)爬蟲發(fā)展歷史久遠,可以追溯到1990年。
此文由 網(wǎng)站目錄_網(wǎng)站網(wǎng)址收錄與提交入口 編輯,未經(jīng)允許不得轉(zhuǎn)載!: