Spider-天眼查字体反爬

字体反爬也就是自定义字体反爬,通过调用自定义的woff文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容!

1.思路

近期在爬取天眼查某公司详情页遇到了字体反爬,经过多次测试,终于解决了字体反爬

首先我们来看一下字体反爬

Spider-天眼查字体反爬

此图可以看出源代码数字跟页面显示的内容是不一样的,在调试器中看到它有一个类tyc-num

Spider-天眼查字体反爬

此图可以看出类tyc-num存放的是一个字体,通过network获取这个字体

Spider-天眼查字体反爬

此图可以看出正常的字体数字是1234567890而现在显示的是7540129863它是顺序打乱的,把tyc-num.woff下载过来,下载过来之后发现windows是查看不了的,我用的是在线工具查看

在线工具链接:FontEditor

Spider-天眼查字体反爬

此图可以发现索引2对应的是4,说明第4个数字是0,通过Python对woff转换成xml

from fontTools.ttLib import TTFont font = TTFont(\'tyc-num.woff\') font.saveXML(\'tyc-num.xml\')

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zgzfgw.html