Google 爬虫如何抓取 JavaScript 的内容(2)

我们测试下拉菜单的链接。历史上的搜素引擎一直不能跟踪这类型的链接。我们想确定 onchange 事件处理器是否会被跟踪。重要的是,这只是执行特定的类型,而我们需要是:其它改动后的影响,而不像上面 JavaScript 重定向的强制操作。

Google 爬虫如何抓取 JavaScript 的内容

例子: Google Work 页面的语言选择下拉菜单。

结果:链接被完整地抓取和跟踪。

我们也测试了常见的 JavaScript 链接。下面是最常见类型的 JavaScript 链接,而传统的 SEO 则推荐纯文本。这些测试包括 JavaScript 链接代码:

作用于外部 href 键-值对(AVP),但在一个标签内(“onClick”)

作用 href 内部 AVP(“javascript : window.location”)

作用于 a 标签外部,但在 href 内调用 AVP(“javascript : openlink()”)

等等

结果:链接被完整抓取和跟踪。

我们下一个测试是更进一步地测试事件处理器,如上面测试的 onchange。具体地说,我们希望利用鼠标移动的事件处理器,然后隐藏 URL 变量 ,该变量只在事件处理函数(在该案例是 onmousedown 和 onmouseout)被触发时执行。

结果:链接被完整抓取和跟踪。

构造链接:我们知道 Google 能执行 JavaScript,但想确认它们是否能读取代码里的变量。所以在该测试中,我们连接能构造 URL 字符串的字符。
结果:链接被完整抓取和跟踪。

3. 动态插入内容

很明显,这些都是重点:动态插入文本、图像、链接和导航。优质的文本内容对搜索引擎理解网页主题和内容是至关重要的。在这个动态网站的时代,它的重要性是无需质疑的。

这些测试,设计出来是为了检查在两个不同场景下动态插入文本的结果。

1). 测试搜索引擎能否统计动态插入的文本,而文本是来自页面 HTML 源码内的。
2). 测试搜索引擎能否统计动态插入的文本,而文本是来自页面 HTML 源码外的(在一个外部 JavaScript 文件内)。

结果:在两个案例中,文本都能被抓取和收录,并且页面是根据该内容进行排名。爽!

为了了解更多相关信息,我们测试了一个通过 JavaScript 编写的客户端全局导航,而导航里的链接都是通过 document.writeIn 函数插入,并且确定它们能被完全抓取和跟踪。应该指出的是:Google 能解释使用 AngularJS 框架 和 HTML5 History API(pushState)构建的网站,能渲染和收录它,并能像传统静态网页一样排名。这就是 不禁止谷歌爬虫 获取外部文件和 JavaScript 的重要性,而且这也许是 Google 正在从 《支持 Ajax 的 SEO 指南》 中移除它的原因。当你能简单地渲染整个页面时候,谁还需要 HTML 快照呢?

经过测试后发现,不管什么类型的内容,都是同样的结果。例如,图像加载到 DOM 后会被抓取和收录。我们甚至做了这样的一个测试:通过动态生成 data-vocabulary.org 结构数据来制作 breadcrumb(面包屑导航),并将其插入 DOM。结果呢? 成功插入后的面包屑出现在搜索结果中了 (search engine results page)。

值得注意的是,Google 现在 推荐用 JSON-LD 标记 形成结构化数据。我敢肯定将来会出现更多基于此的东西。

4. 动态插入 Meta 数据 & 页面元素

我们将各种对 SEO 至关重要的标签动态插入到 DOM:

Title 元素
Meta 描述
Meta robots
Canonical tags

结果:在所有案例中,标签都能被抓取,其表现就像 HTML 源码里的元素一样。

一个有趣的补充实验帮助我们理解优先顺序。当存在冲突信号时,哪一个会胜出呢?如果源码里有 noindex、nofollow 标签,而 DOM 里有 noindex、follow 标签的话,将会发生什么呢?在这协议里,HTTP x-robots 响应头部的行为如何作为另一个变量?这将是未来综合测试的一部分。然而,我们的测试显示:当冲突时,Google 会无视源码里的标签,而支持 DOM。

5. 一个带有 rel =“nofollow” 的重要例子

我们想测试 Google 如何应对出现在源码和 DOM 的链路级别的 nofollow 属性。我们也因此创建了一个没有应用 nofollow 的控件。

Google 爬虫如何抓取 JavaScript 的内容

对于 nofollow ,我们分别单独测试源码 vs DOM 生成的注解。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wwyzwx.html