抽取文章页面内容，转换成md « 子游媒体

抽取文章页面内容，转换成md

admin 发布于 2017年1月14日

没有评论发表评论

刚毕业那会自己就想搞这个，然后呢，弄个垃圾站啥的。

不过没弄。

后来学了点抽取正文的东西。

毕业一年左右搞定了个只能抽出文本的东西。

now，

现在我能把一个正文页面，抽取出 markdown形式。很不错了。

可以自己搞个xx头条了。哈哈

代码实现也很简单。

readability 开源的算法https://github.com/luin/readability，我用java实现了。

抽出正文的html部分。
用 https://github.com/domchristie/to-markdown 将第一步html转成md。
去掉没用html标签。js，css之类的。第一步已经去掉很多了。
用https://pandao.github.io/editor.md/ 展示出来，然后手动微调一下。

搞定。

发表回复