删除sed或类似的html标签

Question

删除sed或类似的html标签

我试图从wepage中获取表的内容.我需要内容而不是标签<tr></tr>.我甚至不需要"tr"或"td"内容.例如:

<td> I want only this </td>
<tr> and also this </tr>
<TABLE> only texts/numbers in between tags and not the tags. </TABLE>

Run Code Online (Sandbox Code Playgroud)

我也想把这样的第一列输出放在一个新的csv文件column1,info1,info2,info3 coumn2,info1,info2,info3中

我尝试sed删除模式<tr> <td>,但当我获取表时,还有其他标签<color> <span>等,所以我想要删除所有标签; 总之,<和>.

Answer 1

Use*_*ode 18

sed 's/<[^>]\+>//g'将删除所有标签,但您可能希望用空格替换它们,以便彼此相邻的标签不会一起运行:<td>one</td><td>two</td>成为:onetwo.所以你可以这样sed 's/<[^>]\+>/ /g'做它会输出one two(实际上one two).

那说除非你只需要原始文本,并且听起来你在剥离标签后试图对数据进行一些转换,像Perl这样的脚本语言可能是一个更合适的工具来完成这些工作.

由于mu太短,提到抓取HTML可能有点冒险,使用实际解析HTML的东西你将是最好的方法. PHPs DOM API非常适合这些类型的东西.

归档时间：	14 年，5 月前
查看次数：	22672 次
最近记录：	10 年，1 月前