小编Mar*_*rko的帖子

用于将HTML实体转换为字符的Bash脚本

我正在寻找一种方法来解决这个问题:

hello < world
Run Code Online (Sandbox Code Playgroud)

对此:

hello < world
Run Code Online (Sandbox Code Playgroud)

我可以使用sed,但如何在不使用神秘的正则表达式的情况下实现这一目标?

html bash html-escape-characters

56
推荐指数
7
解决办法
4万
查看次数

Bash脚本优化

这是有问题的脚本:

for file in `ls products`
do
  echo -n `cat products/$file \
  | grep '<td>.*</td>' | grep -v 'img' | grep -v 'href' | grep -v 'input' \
  | head -1  | sed -e 's/^ *<td>//g' -e 's/<.*//g'`
done
Run Code Online (Sandbox Code Playgroud)

我将在50000+文件上运行它,这个脚本大约需要12个小时.

算法如下:

  1. 仅查找包含<td>不包含任何"img","href"或"input"的表格单元格()的行.
  2. 选择第一个,然后在标签之间提取数据.

可以使用通常的bash文本过滤器(sed,grep,awk等)以及perl.

bash optimization

1
推荐指数
1
解决办法
676
查看次数

标签 统计

bash ×2

html ×1

html-escape-characters ×1

optimization ×1