小编Wal*_*chi的帖子

找到非Ascii字符

可能重复:
如何grep UNIX中的非ASCII字符

我正在努力寻找一个如何在一个非常大的xml数据文件中找到非ascii字符的答案.我不想转换非ascii字符,我只想确定字符所在的数据文件中的位置,以便我可以通知源删除该值.非ascii数据(似乎是单个字符)导致我的处理程序失败.不幸的是,错误数据无法帮助我确定有问题的字符在文件中的位置.此XML数据文件包含数据记录,很可能位于描述字段或名称字段中.

我曾尝试使用文本工具,但它是一个如此庞大的文件(> 32MB)的文本,它是压倒性的.有没有办法在像PSPad或TextPad这样的工具中运行REGEX来查找7-BIT ASCII字符集之外的任何字符？

non-ascii-characters

Wal*_*chi

2017 05-23

7
推荐指数

0
解决办法

3万
查看次数

如何加速Perl的readdir以获得250,000个文件的目录？

我使用Perl readdir来获取文件列表,但是,该目录包含超过250,000个文件,这导致执行readdir并使用超过80MB的RAM的时间长(超过4分钟).由于这是每5分钟一次的重复工作,因此这个滞后时间是不可接受的.

更多信息:另一项工作将填写扫描目录(每天一次).此Perl脚本负责处理文件.为每个脚本迭代指定文件计数,目前每次运行1000次.Perl脚本每5分钟运行一次并处理(如果适用)最多1000个文件.文件计数限制旨在允许下游流处理随着Perl将数据推入数据库而触发复杂的工作流程.

是否有另一种从目录获取文件名的方法,理想情况下限制为1000(由变量设置),这将大大提高此脚本的速度？

perl performance readdir

Wal*_*chi

2009 04-10

4
推荐指数

2
解决办法

4954
查看次数

没有逗号的Powershell十进制格式

如何在没有逗号的情况下格式化powershell输出为十进制？我正在使用'{0:N2}'-f $ a但我不想要成千上万的逗号.

powershell

Wal*_*chi

lucky-day

3
推荐指数

1
解决办法

1万
查看次数

XSLT 用封闭的文本值替换元素文本

用双引号括起来的相同文本替换节点的文本需要什么 XSLT：

<users>
  <user_info>
    <lastname>Jenkins</lastname>
    <firstname>Bob</firstname>
  </user_info>
  <user_info>
    <lastname>Smith</lastname>
    <firstname>Mike</firstname>
  </user_info>
</users>

Run Code Online (Sandbox Code Playgroud)

这是一个简化视图，我的 user_info 结构有 22 个元素，所以我希望 XSLT 简单地用双引号括起来的相同文本替换任何子元素文本值的文本：

<users>
  <user_info>
    <lastname>"Jenkins"</lastname>
    <firstname>"Bob"</firstname>
  </user_info>
  <user_info>
    <lastname>"Smith"</lastname>
    <firstname>"Mike"</firstname>
  </user_info>
</users>

Run Code Online (Sandbox Code Playgroud)

我可以在每个子元素的基础上执行逻辑，但这很乏味。我对如何在 user_info 节点列表级别进行迭代感到困惑。像往常一样，答案可能很简单:) 感谢您的帮助。

xslt

Wal*_*chi

lucky-day

2
推荐指数

1
解决办法

5196
查看次数