Node.js 实现简单小说爬虫实例(2)

var http = require("http") var fs = require("fs") var cheerio = require("cheerio") var iconv = require("iconv-lite") var path = require('path') var urlList = JSON.parse(fs.readFileSync('list.json', 'utf8')) function getContent(chapter) { console.log(chapter.link) http.get(chapter.link, function(res) { var chunks = [] res.on('data', function(chunk) { chunks.push(chunk) }) res.on('end', function() { var html = iconv.decode(Buffer.concat(chunks), 'gb2312') var $ = cheerio.load(html, { decodeEntities: false }) var content = ($("div#r1c").text()).replace(/\&nbsp;/g, '') if (fs.existsSync('美人为馅.md')) { fs.appendFileSync('美人为馅.md', '### ' + chapter.title) fs.appendFileSync('美人为馅.md', content) } else { fs.writeFileSync('美人为馅.md', '### ' + chapter.title) fs.appendFileSync('美人为馅.md', content) } }) }).on('error', function() { console.log("爬取" + chapter.link + "链接出错!") }) } for (let i = 0; i < urlList.length; i++) { console.log(urlList[i]) getContent(urlList[i]) }

Markdown 转 PDF

我将小说保存在 Markdown 文件中,为了提升阅读体验,可以将 Markdown 文件转换成 PDF 文件,目前我较为喜欢的两种方式,通过 Chrome 的打印功能 以及 pandoc 转换

Chrome 打印

SublimeText 有个插件 markdown preview ,可通过 Alt + m 快捷键在 Chrome 中预览 Markdown,在 Chrome 页面中右键,选择打印,调整好参数后,选择另存为 PDF,简单,粗暴,深得我心

打印效果:

Node.js 实现简单小说爬虫实例

pandoc 转换
pandoc 是十分强大的文件格式转换工具,可以将 Markdown 文件转换成多种格式,今晚在 windows10 下折腾了半天,始终检索不到 pdflatex,关于 pandoc,后面会专门写一篇总结。

PDF 已经发给老大了,现在正在看

关于python、node、爬虫

在之前很长的一段时间里,很想用 Python,很想写爬虫,更想用 Python 写爬虫,甚至成为了心里的一块执念,随着接触的知识更全面,执念也逐渐淡去,少了很多“想”,遇事想着多去动手,实践出真知。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wzzjxs.html