Google推新索引技術Caffeine 搜索結果提高50%
CNET科技資訊網6月9日國際報道 Google終于發布眾所期待的搜索索引技術咖啡因(Caffeine)。
Google在周二晚上的官方博客中公布了發布Caffeine索引技術的信息。博客中寫道:“與我們的老索引技術相比,Caffeine能夠提供的新網絡搜索結果提高50%,最大程度收集我們提供的網絡內容。無論是新聞、還是博客或論壇,一經發布,用戶都能發現相關內容的鏈接,索引速度較以前有大幅提高?!?br />
Google從2009年8月開始測試Caffeine。搜索專家馬特·庫茨(Matt Cutts)去年11月曾表示,新系統在圣誕假日后不久將投入使用。當時,Google曾表示新索引技術將是自2006年以來的重大變革。速度和綜合性是新技術關注的目標。
Google曾表示,新系統需與網絡內容的爆炸性增長保持同步,過去兩年中,博客、視頻和社交媒體技術都蜂擁至網絡。借助Caffeine,Google將加快索引次數的更新,對一小部分網絡進行消化,而不是對整個網絡重新索引并更新索引內容。
Google軟件工程師卡莉·格蘭姆斯(Carrie Grimes)在博客中稱:“我們將把Caffeine列為未來考慮重點,不僅使之索引更多新結果,還要將之打造為適應網絡消息增長的速度更快、理解力更高的搜索引擎,為用戶提供相關度更高的搜索結果?!?/p>
在解釋為什么開發新的搜索索引系統時,Google表示:“Web內容欣欣向榮,它不僅在大小和數量上取得了增長,內容也不斷變化,出現了視頻、圖片、新聞和實時更新,普通的網頁變得更加豐富和復雜。此外,人們對搜索的要求也在比從前高很多,搜索者希望找到最想要的內容,發布者希望新發布的內容立刻被找到?!?br />
“為了適應Web的變革并滿足人們日益增長的需求,我們開發了Caffeine(咖啡因),下圖描述了傳統索引系統與Caffeine的區別:”

傳統的索引分為很多層,其中一些會以較快的速度更新,而主要內容層則會每幾周才更新一次。在更新一個層時,Google需要對整個Web進行分析,這也就意味著在Google發現一個頁面與提供給用戶這之間有一個延遲。
在Caffeine中,“我們只在小的范圍內分析Web內容,并不間斷地更新索引,進而設計全球網絡內容。一旦我們發現新的頁面或現有頁面上更新了內容,我們可以直接將其添加到索引中,也就是說,你可以更快地搜索到新的Web內容?!?br />
Caffeine每秒可以并行處理數以萬計的頁面,如果這些網頁以紙張堆積起來,那么每秒鐘它可以增高近5000米。Caffeine在每個數據庫中占據100,000,000 GB的存儲空間,每日的新增量也十分驚人。你需要625000個最大容量版本iPod才能存儲這么多數據,它們首尾相連能超過64公里。