- 十二月28日
-
本文是谷歌创始人Sergey和Larry在斯坦福大学计算机系读博士时的一篇论文。发表于1997年。在网络中并没有完整的中文译本,现将原文和本人翻译的寥寥几句和网络收集的片段(网友xfygx和雷声大雨点大的无私贡献)整理和综合到一起,翻译时借助了translate.google.com,因为是技术性的论文,文中有大量的合成的术语和较长的句子,有些进行了意译而非直译。作为Google辉煌的起始,这篇文章非常有纪念价值,但是文中提到的内容因年代久远,已经和时下最新的技术有了不少差异。但是文中的思想还是有很多借鉴价值。因本人水平有限,对文中内容可能会有理解不当之处,请您查阅英文原版。
大规模的超文本网页搜索引擎的分析
Sergey Brin and Lawrence Page
{sergey, page}@cs.stanford.edu
Computer Science Department, Stanford University, Stanford, CA 94305
摘要
在本文中我们讨论Google,一个充分利用超文本文件结构进行搜索的大规模搜索引擎的原型。Google可以有效地对网络资源进行爬行搜索和索引,比目前已经存在的系统有更令人满意的搜索结果。该原型的数据库包括2400万页面的全文和之间的链接,可通过http://google.stanford.edu/访问。
设计一个搜索引擎是一种具挑战性的任务。 搜索引擎索引数以亿计的不同类型的网页并每天给出过千万的查询的答案。尽管大型搜索引擎对于网站非常重要,但是已完成的对于大型搜索引擎的学术上的研究却很少。 此外,由于技术上的突飞猛进和网页的急剧增加,在当前,创建一个搜索引擎和三年前已不可同日而语。本文提供了一种深入的描述,与 Web增殖快速进展今日创建Web搜索引擎是三年前很大不同。本文提供了到目前为止,对于我们大型的网页所搜引擎的深入的描述,这是第一个这样详细的公共描述。
除了如何把传统的搜索技术扩展到前所未有的海量数据,还有新的技术挑战涉及到了使用超文本中存在的其他附加信息产生更好的搜索结果。本文解决这样一个问题,如何建立一个可以利用超文本中存在的其他附加信息的实用的大型系统,同时我们也研究一下如何有效处理任何人都能发布他们想发布的包含任何信息的大量自由链接的问题。
关键词字: 互联网,搜索引擎,文献检索,PageRank,Google
1.简介
(注: 本文由两个版本--较长的完整版本和一个较短的印刷的版本。 完整版本提供在网络上和会议的CD-ROM上)。 Web给信息检索带来了新的挑战。Web上的信息量快速增长,同时不断有毫无经验的新用户来体验Web这门艺术。人们喜欢用超级链接来网上冲浪,通常都以象 Yahoo这样重要的网页或搜索引擎开始。人工维护的网站列表能有效的覆盖受欢迎的流行的站点,但是它具有主观性,建立和维护的代价高,升级慢,不能包括所有深奥的主题。基于关键词的自动搜索引擎通常返回太多的低质量的匹配。使问题更遭的是,一些广告为了赢得人们的关注想方设法误导自动搜索引擎。我们建立了一个大型搜索引擎解决了现有系统中的很多问题。应用超文本结构,提供高质量的查询结果,我们的系统命名为google,取名自googol的通俗拼法,即10的100次方,这和我们的目标建立一个大型搜索引擎较好的符合。
完整版word文档:http://115.com/file/bhk2os7c
原创优读网-重庆seo,来源:http://www.seoread.org/post/search-analytics.html