为何要开发新型Caffeine索引技术?原因就是互联网内容的规模每天都在增长。互联网内容的增长并不仅仅体现在数量上面,而且还出现了视频、图片和实时更新等内容。与以往相比,目前平均每个网页所含信息量比以前更为丰富。此外,网民对搜索引擎性能的期望值比以前更高,他们希望能够更及时查找到互联网上刚刚发布的内容。
为适应互联网产业的向前演进以及满足网民的需求,我们开发了Caffeine索引系统。我们老式索引采用了多层技术,而部分索引层的内容更新快于其他层面;主索引层通常是每隔数周更新一次。如果我们要更新其中的某个索引层,就是必须对整个互联网进行分析。如此一来,网民所搜索到的结果,与互联网的实际内容之间会有一个时间差。
利用Caffeine技术,我们将互联网划分为不同的部分,然后以连续状态在全球范围对不同部分内容加以升级。当我们发现了新内容,只需将这些新内容添加到当前索引当中。这就是说,你在使用谷歌搜索过程中,所获得的结果与互联网实际内容的时间差已经非常小。
Caffeine技术可以使我们实现对网络内容索引的规模化。事实上,Caffeine每秒钟可同时处理数十万个网页。如果这些网页是现实生活中的纸张,则这些纸张每秒钟将堆成3英里高。Caffeine在一个数据库中可处理近1亿GB的存储信息,且每天存储信息量都在大幅增长。你需要使用62.5万部容量最大的iPod音乐播放器才能存储这些信息,如果将这些iPod并排放置,则可长达40英里。
我们开发Caffeine技术,其实是着眼于互联网产业的未来发展。Caffeine不仅仅提高了网络索引的时效性,而且使我们希望组建性更强大的搜索引擎成为可能,然后再向网民提供质量更好的搜索服务。请关注Caffeine的发展,今后数月内,我们将对Caffeine技术加以进一步完善和改进。