如何像Lynx一样使用Perl将HTML呈现为文本?

Aar*_*ron 4 html perl render

可能重复:
您建议使用哪种CPAN模块将HTML转换为纯文本?

题:

  • 是否有一个模块来渲染HTML,专门收集文本,同时秉承字体风格的标记,如<tt>,<b>,<i>,等和盈亏线 <br>,类似于山猫.

例如:

# cat test.html

<body>  
<div id="foo" class="blah">  
<tt>test<br>
<b>test</b><br>
whatever<br>
test</tt>
</div>
</body>
Run Code Online (Sandbox Code Playgroud)

# lynx.exe --dump test.html

test
test
whatever
test
Run Code Online (Sandbox Code Playgroud)

注意:第二行应该是粗体.

sin*_*ish 10

Lynx是一个很大的程序,它的html渲染将是非常重要的.

这个怎么样:

my $lynx = '/path/to/lynx';
my $html = [ html here ];
my $txt = `$lynx --dump --width 9999 -stdin <<EOF\n$html\nEOF\n`;
Run Code Online (Sandbox Code Playgroud)

  • +1.想要提出相同的答案. (2认同)

Sch*_*ern 6

转到search.cpan.org并搜索HTML文本,它将为您提供许多选项以满足您的特定需求. HTML :: FormatText是一个很好的基线,然后分支到它的特定变体,例如HTML :: FormatText :: WithLinks,如果你想保留链接作为脚注.