我在Ruby中编写了一个Web爬虫,我正在使用它Nokogiri::HTML来解析页面.我需要打印页面,在IRB中乱搞时我注意到了一种pretty_print方法.然而,它需要一个参数,我无法弄清楚它想要什么.
我的抓取工具正在缓存网页的HTML并将其写入本地计算机上的文件.我想"漂亮地打印"HTML,以便它在我这样做时看起来很好并且格式正确.
该tidy宝石不再维护,并有多个内存泄漏问题.
有人建议使用Nokogiri.
我目前正在使用以下方法清理HTML:
Nokogiri::HTML::DocumentFragment.parse(html).to_html
我有两个问题:
Nokogiri删除了 DOCTYPE
有没有一种简单的方法可以强制清理的HTML有一个html和body标签?
我正在寻找一个简单的模板引擎,它将YAML剪切为上下文,并且非常适合阅读Markdown以及一些标记来生成Markdown.我尝试过Jekyll的液体,它起作用,除了在Markdown中非常重要的空白.
例如,使用此输入...
---
samples:
- name: one
samplecode: |
function sample() {
return 1;
}
- name: two
samplecode: |
function sample() {
return 2;
}
---
{% for s in page.samples %}
- {{s.name}}
{{s.samplecode}}
{% endfor %}
Run Code Online (Sandbox Code Playgroud)
输出是:
- one
function sample() {
return 1;
}
- two
function sample() {
return 2;
}
Run Code Online (Sandbox Code Playgroud)
而不是以下实际上与Pandoc一起使用的:
- one
function sample() {
return 1;
}
- two
function sample() {
return 2;
}
Run Code Online (Sandbox Code Playgroud)
这实际上已经为Jekyll讨论过.
所以我的问题是:有没有适合我需求的简单模板引擎?