谷歌动态
Google搜索原理
就像一个藏有数十亿本图书的公共图书馆,其藏书量一直在不断增加,查找我们想要的书或想要的内容,确是一个很大的问题,Google就像给我们的图书馆安装一个中枢查询系统。Google 在抓取了所有书的文字,内容图片,视频等所有信息,并创建了索引,因此我们确切知道如何找出所需内容。与图书后面的索引类似,Google 索引也包含一些字词及其位置的信息。当您执行搜索时,在最基本的情况下,我们的算法会在索引中查找您搜索的字词,从中找到相应的网页。搜索“狗狗”时,您可能并不希望看到有几百个“狗狗”字样的网页,而可能希望获得相关的图片、视频或品种信息。Google 的索引系统会注明网页的发布时间、是否包含图片和视频等多方面的信息。借助,我们的搜索服务将继续使用包括关键字匹配在内的方法,以便更好地了解您所关心的人物、地点和事件等信息。
抓取与索引编制
通过抓取查找信息
我们使用称为“网页抓取工具”的软件来查找公开网页。最著名的抓取工具是“Googlebot”()蜘蛛。抓取工具会查看网页并访问这些网页上的链接,就像您在浏览网页内容时所做的操作一样。它们从一个链接跳转到另一个链接,并向 Google 服务器返回相应网页的相关数据。
系统会从以前抓取的一系列网页地址和网站所有者提供的站点地图开始抓取。访问这些网站时,我们的抓取工具会查找其他网页的链接以进行访问。该软件会特别注意新的网站、现有网站所发生的更改和无效链接。
计算机程序会决定要抓取的网站、抓取的频率以及要从各网站抓取的网页数量。Google 不会为了收费而将任何网站更频繁地抓取到我们的网络搜索结果中。我们更关心如何尽可能提供最佳结果,因为从长远来看,这才是对用户最有利的,也正是我们业务的立足之本。
Google搜索算法
当你在谷歌搜索前我们已经收录数万亿个网页在我们的数据中心。我们从索引信息算法中找到与你关键字相关性最强的信息提取出来,以与你最相关的信息索引出来反馈到你的计算机上。
Google搜索流程原理
1 搜索前
在您向Google 输入搜索关键字之前,Google搜索查询的过程就已经开始了。我们使用软件机器人(也就是网页抓取工具或“蜘蛛”程序)找到网页,将这些网页的数据采取收录存储在Google数据中心里。 网络数据中心就像是一本厚达数万亿页的书,我们的工作就是为这本书编写索引,高速,准确的找到你所需信息。
. 我们的索引远远大于 1 亿千兆字节。
. 迄今为止,我们花费了超过 100 万小时的计算时间来构建索引。
|
2 搜索时 --足球
当您开始"足球"搜索时,Google 的算法会开始查找您要查找的内容。"足球"搜索查询历经平均 2,400 公里的路程,以每小时几亿英里的速度为您返回答案(在此过程中还可能访问世界各地的不同数据中心),其速度接近光速。
分析用户需求:
1.足球(耐克,阿迪达斯) 2.球赛(世界怀,球队,球员) 3.足球(视频,图片等) |
3 排名
该算法着眼于您的查询,并使用 200 多种指标从数百万网页和内容中确定与该查询相关程度最高的答案。 Google 每年进行 500 多次改进,以完善其排名算法。
指标示例如下:
1.网站内容的及时性 2. 网页的网址和标题 3.链接到某个特定网站的其他 4. 最佳结果是网页、图
网站的数量,以及这些网站 片、视频、新闻报道还
的权威性 是个性化搜索结果等
5.网页上的文字 6.个性化 7.搜索关键字的同义词 8.与您关联的人员推荐的结果 9.拼写检查 10.网站内容的质量 |
|
4 结果
搜索结果按相关程度排序并显示在网页上, 除了能即时看到结果外,将鼠标悬停在结果右侧的箭头上,您还可以看到这些网页的预览,因此您可以快速确定是否要访问该网站。
更多统计信息:
* 每天在 Google 上进行的搜索有几十亿次。
* 从 2003 年开始至今,Google 已解答 4500 亿不同的新查询,此搜索量是我们前所未见的。
* 我们每天接触的搜索中有 16% 是新的。
|
本页关键词: Google搜索原理, Google排名算法, Google搜索,