
Google 搜索是一个完全自动化的搜索引擎,它使用网络抓取工具定期探索网络以寻找新的或更新的网页以添加到 Google 的索引中。 本文从网站的角度介绍谷歌搜索运营的各个阶段,帮助您了解如何优化网站在谷歌搜索结果中的呈现效果
Tips(防骗指南)
Google 不会就提高其抓取频率或排名收取费用;
Google 不保证您的网页会被抓取、编入索引或显示在搜索结果网页中
Google 搜索的工作流程分为 3 个阶段,并不是每个网页都会经历 3 个阶段
第一个阶段 – URL 发现:Google 不断搜索新的和更新的网页,并将其添加到 已知网页列表。 因为谷歌以前访问过某些页面,这些页面是已知页面,当从已知页面跟随链接到新页面时,谷歌会发现其他页面。 当你以列表(站点地图)的形式提交一系列网页供谷歌抓取时,谷歌还会发现其他网页
第二阶段——抓取:Googlebot程序执行抓取任务,来到Google发现的网页,访问该网页了解内容。 Googlebot 使用算法过程来确定要抓取哪些网站、抓取的频率以及从每个网站抓取多少网页。 爬虫是根据网站的响应和Search Console中的设置来保证网站不会被抓取太快而网站接收到过多的请求
在抓取过程中,谷歌会使用最新的 Chrome 版本来呈现页面并允许它查找所有 JavaScript。 Googlebot 不会抓取它找到的所有网页,一些网页可能被网站所有者阻止抓取,其他网页可能需要登录网站才能访问,还有一些可能是之前抓取的重复网页。 可抓取性取决于 Google 的抓取工具是否可以访问该网站。 Googlebot 访问网站的一些常见问题包括
- 服务器在处理网站时遇到问题
- 网络问题
- robots.txt 阻止Googlebot访问页面
索引
抓取页面后,Google会尝试 解析并理解网页的内容,包括处理和分析文本内容、关键内容标签和属性等。在索引期间,Google 确定一个页面是否与互联网上的另一个页面重复或者是规范页面(一个页面 可能出现在搜索结果中)
为了选择一个规范的页面,我们首先将在互联网上找到的内容相似的网页归为一组,然后将其中最具代表性的网页 选择一组网页进行演示。 集合中的其他页面可能用作替代版本,例如当用户在移动设备上搜索时,或者在集合中查找特定页面时
Google 还会收集使页面及其内容规范化的信号 (包括页面语言、内容所在国家/地区、页面可访问性等)可能会存储在 Google 索引中,并可能在下一阶段使用
我们不能保证某个页面会被编入索引,并且 并非 Google 处理的每个页面都被编入索引。 索引还取决于页面的内容及其元数据。 一些常见的索引问题可能包括
- 页面内容不佳
- 机器人元指令禁用索引
- 网站的设计可能会使索引变得困难
呈现搜索结果
Google 不收取提高网页排名的费用,网页排名以编程方式完成
当用户输入查询时,Google 会在其索引中搜索匹配的网页并返回高- 我们认为与用户搜索最相关的高质量结果。 相关性由数百个因素决定,其中可能包括用户的位置、语言和设备等信息
Search Console 可能会告诉您某个网页已编入索引,但它可能不会在搜索结果中显示 可能的原因是
- 页面内容与用户不相关
- 内容 质量低
- 机器人元指令阻止呈现搜索结果