数据除仅显示在网页上供采集外,另有大量的数据是直接通过下载的方式提供,这在各种管理后台、数据平台上尤为常见,如内部系统的提交相应条件后下载文件和微信、淘宝等数据后台上提供的详尽数据分析所需要的底层明细数据,都是通过下载的方式提供的。
数据下载功能,从最为简单的提供网址即可,到需要登录状态下才能下载,再到更复杂的大文件下载稳定性保障等,在Excel催化剂上都能一一解决。使用Http提交方式下载及使用模拟浏览器Chrome的方式,足于满足任何挑剔的下载任务,同时也兼顾了下载的性能及稳定性要求。
相较迅雷等工具批量下载,使用Excel催化剂可以下载同时按映射关系改名,下载链接的构造在Excel环境下大量的函数、填充及Excel催化剂已开发的替换功能,笛卡尔积等操作,使用体验超极棒。
四、独有的网页另存为功能,满足采集排版后的网页二次加工使用需求众多的网页采集工具,仅限于采集网页上的内容,将其结构化为数据表结构的数据,有跟踪Excel催化剂过往推文的都知道,Excel催化剂将自身公众号的推文全部整理成册,变为PDF和Word版本的,放到百度云盘中供下载。
此类的需求,用于满足对现有网络世界的碎片化信息的整理,如公众号文章采集或其他一些仅发布在网络上的书籍连载,主题连载等内容。
原有网页上的排版样式通过网页另存为的方式得到固化,无需采集回来重新加工排版,方便人的阅读。并且可满足采集过程中,将干扰内容进行剪切删除,留下干净的内部部分。
如下图是原网页的展示
经过剪切后,将无用信息及广告去除,最后再转换为PDF格式,方便离线阅读和整体连贯性阅读。
五、将网页转换为PDF或图片,满足离线阅读需求及查阅将网页转换为PDF或图片,技术要点在第四点已有讲述。相对其他直接转换的方案,使用第四点的功能将其离线化到本地的html文件,再转PDF,更为灵活方便,特别是对长网页和有异步加载的页面,更能保障采集到的内容完整性。
当然也同样支持直接使用网址转换成PDF或图片。转换过程,更是能够多个网页合并为一个文件,灵活配置,非常好用。
极度友好体验支持上述五大功能实现 一、所有配置工作在Excel工作表环境完成纵观绝大部分的采集工具,就算有再强大的采集能力和防反爬能力,用户在配置自己想采集的页面及配置一些文件映射关系和时间延时等操作,不可避免在一些窗体、界面上作配置,其使用效果远远不及在Excel上的体验。
退一步来说,就算提供了导入文件的方式导入数据,也需来回在Excel上加工好数据再返回软件工具操作界面操作,繁琐在所难免。
如下图中左侧的网址配置及右侧的采集内容配置区,非常友好方便的Excel使用体验。
二、采集规则模板化,极大方便复用在第一点工作表环境的配置基础上,所做的一切配置,都可固化下来,供下次使用。
最要紧的是当同类型的模板再次使用时,复制工作表、单元格的操作将可说是最完美的使用体验,没有之一。
三、支持xpath和CssSelector双模式内容匹配,并可分步化进行,降低匹配逻辑的书写难度。一般性的采集工具,虽然有那么丁点的智能识别内容,但面对稍复杂的页面,还是要有相应的xpath或CssSelector的知识。
在Excel催化剂的方案中,xpath有比网络上经常提及的xpath helper或fire path更优的方案,让用户更低门槛写出自己所需的xpath或CssSelector表达式。
同时兼容两种表达式的匹配,熟悉哪个用哪个,非常好用。
四、只需关注一或多的数据结构,极大简化数据采集的页面结构分析在其他采集工具中,需要考虑不同页面不同的应对策略,如详情页、列表页、搜索页、首页等,不同页面不同的规则适配。