Google 爬虫如何抓取 JavaScript 的内容(3)

日期：2020-06-08 栏目：程序人生浏览：次

源码里的 nofollow 正如我们所期待的那样运行(链接没被跟踪)。而 DOM 里的 nofollow 却失效(链接被跟踪，并且页面被收录)。为什么?因为在 DOM 里修改 href 元素的操作发生得太晚了：Google 在执行添加 rel=”nofollow” 的 JavaScript 函数前，已准备好抓取链接和队列等待着 URL。然而，如果将带有 href =https://www.jb51.net/”nofollow”的 a 元素插入到 DOM，nofollow 和链接因在同一时刻插入，所以会被跟踪。

结果

从历史角度上看，各种 SEO 推荐是在任何可能的时候，要尽可能专注 ‘纯文本' 内容。而动态生成内容、AJAX 和 JavaScript 链接会损害主流搜索引擎的 SEO。显然，这对 Google 不再是问题。 JavaScript 链接以类似普通的 HTML 链接方式运行(这只是表面，而我们不知道幕后程序进行了什么操作)。
JavaScript 重定向都会以类似于 301 重定向方式对待。

动态插入内容，甚至 meta 标签，如 rel canonical 注解，无论在 HTML 源码，还是在最初 HTML 被解析后触发 JavaScript 生成 DOM ，都以同等方式对待。

Google 视乎能完全渲染页面和理解 DOM ，而不仅是源码。实在是令人可不思议!(记得允许谷歌爬虫获取那些外部文件和 JavaScript。)

Google 已经在创新方面，以惊人的速度将其它搜索引擎甩在身后。我们希望看到其它搜索引擎能有同样类型的创新。如果他们要保持竞争力，并在 web 新时代取得实质性进展，这意味着它们要更好地支持 HTML5、JavaScript 和动态网站。

对于 SEO，那些没有理解上述基本概念和 Google 技术的人，应该好好研究和学习，以赶上当前技术。如果你不把 DOM 考虑在内，您可能会丢失一半份额。

转载注明出处：https://www.heiqu.com/wwyzwx.html

Google 爬虫如何抓取 JavaScript 的内容(3)

相关推荐