刚毕业那会自己就想搞这个,然后呢,弄个垃圾站啥的。
不过没弄。
后来学了点抽取正文的东西。
毕业一年左右搞定了个只能抽出文本的东西。
now,
现在我能把一个正文页面,抽取出 markdown形式。很不错了。
可以自己搞个xx头条了。哈哈
代码实现也很简单。
readability 开源的算法https://github.com/luin/readability,我用java实现了。
- 抽出正文的html部分。
- 用 https://github.com/domchristie/to-markdown 将第一步html转成md。
- 去掉没用html标签。js,css之类的。第一步已经去掉很多了。
- 用https://pandao.github.io/editor.md/ 展示出来,然后手动微调一下。
搞定。
发表回复