如果說有什么發明拯救了互聯網?那一定是搜索引擎,否則互聯網中的信息越多,它本身崩潰得越快,因為人們找到自己需要的信息也就越難,使用體驗也就越差。搜索的早期形態是啥?搜索經歷的多少次變革?未來的搜索引擎將變成怎樣?不妨總結一下搜索引擎發展的歷史,發現其中的脈絡。
其實,搜索的需求——從眾多東西(主要是信息)中尋找自己要的,人類一直都有,只不過在IT技術發展之前,所有信息都沒有數字化,搜索唯一可行的表現形式是紙質的目錄、索引、電話簿。廣域網產生以后,搜索的需求存在,但技術沒有對應的迅速發展,因此互聯網搜索的最早形式是網址簿。具體形式和電話簿、黃頁相似,記錄很多知名網站網址的一本書,大小視專業程度而定。筆者自己就買過一本普通網民適用的,大小薄厚類似一本新華字典,按網站內容的不同分類。
紙質的有了,網絡版的很快跟上。1994年,楊致遠創建雅虎,并開始人工搜集各類網站的網址,并將它們按一定規律分類、排序,網民可以只記住雅虎的網址,之后通過雅虎進入各個門類的網站,紙質的網址簿立即變得多余。部分互聯網業內人士將雅虎用人工搜集網址并分類呈現的目錄式搜索稱為第一代搜索引擎,也有部分互聯網專家認為雅虎這類做法并不能嚴格稱為搜索引擎,而應算作最早的網址導航。筆者傾向于將其算作搜索實現形式中的一種,甚至包括網址導航也是如此。
但雅虎畢竟只是將紙質目錄搬到了互聯網網頁上,肉眼查找和不同人對網站分類的理解都降低了這類搜索的使用效率。于是根據關鍵詞進行自動查找的功能也被應用進搜索引擎,這其實并不難實現,因為根據關鍵詞進行全文檢索的技術甚至早在計算機剛剛被發明的上世紀50年代就已經出現(國內的中文全文檢索技術最早被作為748工程的一部分,于80年代后期基本完成,但被廣泛應用已經是90年代的事了)。
第一代搜索引擎唯一的問題是,網址仍然由人工收集,效率低、易出錯、不全面。于是互聯網急需一種替代人工收集網址的技術,而說到替代人工,人們必然會聯想到的是機器人,于是第二代搜索引擎所依仗的就是機器人,用程序鑄造、組裝的游走在互聯網中的機器人,現在它被人們熟知的名字是搜索爬蟲或者搜索引擎蜘蛛。事實上,這種技術的出現還早于楊致遠的雅虎,甚至早于萬維網的誕生。
1990蒙特利爾大學學生Alan Emtage發明的Archie。雖然當時World Wide Web還未出現,但網絡中文件傳輸還是相當頻繁的,而且由于大量的文件散布在各個分散的FTP主機中,查詢起來非常不便,因此Alan Emtage想到了開發一個可以以文件名查找文件的系統,于是便有了Archie。Archie工作原理與現在的搜索引擎已經很接近,它依靠腳本程序自動搜索網上的文件,然后對有關信息進行索引,供使用者以一定的表達式查詢。由于Archie深受用戶歡迎,受其啟發,美國內華達System ComputingServices大學于1993年開發了另一個與之非常相似的搜索工具,不過此時的搜索工具除了索引文件外,已能檢索網頁。
現在的主流搜索引擎:谷歌、必應、百度等均采用了搜索爬蟲抓取、下載網頁,以取代人工,這些搜索爬蟲每一定天數(例如谷歌是28天)進行一次全互聯網的抓取,將所有網頁結果下載至自己的服務器,等待再由人們通過輸入關鍵詞提起搜索申請。
機器人抓取網頁的工作效率明顯高于人工,再加上用關鍵詞進行檢索,新一代搜索引擎的登場時間理應早于目錄式搜索和網址導航才對。但問題在于:互聯網中的信息實在太多了,搜索爬蟲拿回來的網頁,人幾乎無法再次進行分類,而僅僅經由關鍵詞進行檢索,人們依然要從一團亂麻中肉眼查找自己想要的內容,這個使用體驗還不如直接使用目錄。
這個問題的解決誕生了現今搜索領域的最強者,也是世界上最偉大的公司之一——谷歌。上世紀90年代后期,就在雅虎取得成功,讓人們看到搜索的巨大需求之后,當時在斯坦福大學攻讀理工博士的Larry Page 和 Sergey Brin開發出PageRank算法,用于衡量特定網頁相對于搜索引擎索引中的其他網頁而言的重要程度。這項算法基本可以理解為投票,最重要的部分是計算每個網頁與其他網頁之間鏈接的多少,鏈向某個搜索結果的網頁越多且權重越高,那么這個搜索結果也就越重要。谷歌用這個辦法解決了搜索結果排序的問題,以此取代了目錄式的分類,也用搜索爬蟲加PageRank的辦法取代了雅虎最早提出的搜索引擎解決方案。部分業內人士把谷歌為代表的這一代搜索引擎稱為第二代搜索引擎,也有人認為這才是真正意義上的搜索引擎,筆者比較支持前一種說法。
中國的搜索引擎歷史基本是直接從第二代搜索引擎開始的,時間是1999年,百度、中搜等老牌搜索引擎廠商從一開始就采用了搜索爬蟲和排序算法的組合(當時還有3721提供網址導航服務,但時間與百度、中搜等幾乎重合)。與谷歌、雅虎不同,當時的百度、中搜,都主要為門戶網站提供搜索技術的后臺服務,而沒有自己的呈現網站。直到谷歌和雅虎在本世紀初進入中國,百度、中搜以及后來的搜搜、搜狗和再后來的360才開始有了自己的搜索引擎網站。
歷史似乎到此結束,但以上說到的最晚時間點距現在還有十年之久,搜素引擎在這十年也并非一成不變。