Textpipe:在两个标签之间提取文本

And*_*rew 2 html tags text extraction

我不能为我的生活弄清楚如何用TextPipe完成这项任务.

任务:

提取(剪切)此TEXT,包括开始和结束标记,并获取仅包含这些标记及其间文本的文件.

<div><div class="article">`TEXT`<span id="contentBottomLeft"></span>
Run Code Online (Sandbox Code Playgroud)

我定义了一个带有结束和开始标记的限制过滤器,但下一步是什么?这个过滤器需要一个子过滤器,我不明白接下来需要使用什么样的过滤器以及如何定制它.我需要为数千个HTML文件重复这个提取过程.

专门针对TextPipe的步骤将会受到极大的影响,因为我自己并不是一个程序员.

小智 5

使用TextPipe非常容易,BTW非常棒.

添加perl搜索和替换模式过滤器,搜索文本为:

<div><div class="article">[^<]*<span id="contentBottomLeft"></span>
Run Code Online (Sandbox Code Playgroud)
  • 在这里,TEXT可以是除"<"之外的任何字符 - 这使得模式更快.

将替换文本设置为:

$0\r\n
Run Code Online (Sandbox Code Playgroud)

然后,只需选中搜索/替换过滤器的" 提取匹配 "选项即可.

最后,在输出过滤器中,使用" 单个文件输出 "到目标文件名.