小编Mar*_*rko的帖子

用于将HTML实体转换为字符的Bash脚本

我正在寻找一种方法来解决这个问题:

hello &lt; world

Run Code Online (Sandbox Code Playgroud)

对此:

hello < world

Run Code Online (Sandbox Code Playgroud)

我可以使用sed,但如何在不使用神秘的正则表达式的情况下实现这一目标？

html bash html-escape-characters

Mar*_*rko

2016 05-24

56
推荐指数

7
解决办法

4万
查看次数

Bash脚本优化

这是有问题的脚本:

for file in `ls products`
do
  echo -n `cat products/$file \
  | grep '<td>.*</td>' | grep -v 'img' | grep -v 'href' | grep -v 'input' \
  | head -1  | sed -e 's/^ *<td>//g' -e 's/<.*//g'`
done

Run Code Online (Sandbox Code Playgroud)

我将在50000+文件上运行它,这个脚本大约需要12个小时.

算法如下:

仅查找包含<td>不包含任何"img","href"或"input"的表格单元格()的行.
选择第一个,然后在标签之间提取数据.

可以使用通常的bash文本过滤器(sed,grep,awk等)以及perl.

bash optimization

Mar*_*rko

2011 05-06

1
推荐指数

1
解决办法

676
查看次数

标签统计

bash ×2

html ×1

html-escape-characters ×1

optimization ×1

用于将HTML实体转换为字符的Bash脚本

Bash脚本优化

标签 统计

小编Mar_rko的帖子

标签统计