抽取文章页面内容,转换成md

刚毕业那会自己就想搞这个,然后呢,弄个垃圾站啥的。

不过没弄。

后来学了点抽取正文的东西。

毕业一年左右搞定了个只能抽出文本的东西。

now,

现在我能把一个正文页面,抽取出 markdown形式。很不错了。

可以自己搞个xx头条了。哈哈

代码实现也很简单。

readability 开源的算法https://github.com/luin/readability​,我用java实现了。

  1. 抽出正文的html部分。
  2.  用 https://github.com/domchristie/to-markdown  将第一步html转成md。
  3. 去掉没用html标签。js,css之类的。第一步已经去掉很多了。
  4.  用https://pandao.github.io/editor.md/ 展示出来,然后手动微调一下。

搞定。​

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

疑问 开心 悲伤 邪恶 惊叹 微笑 脸红 笑 惊讶 惊奇 迷惑 酷 憨笑 生气 阴险 转眼球 眨眼 主意 箭头 中立 哭 大笑