相关疑难解决方法(0)

如何grep所有非ASCII字符?

我有几个非常大的XML文件,我试图找到包含非ASCII字符的行.我尝试过以下方法:

grep -e "[\x{00FF}-\x{FFFF}]" file.xml
Run Code Online (Sandbox Code Playgroud)

但是这会返回文件中的每一行,无论该行是否包含指定范围内的字符.

我的语法有错吗?或者我做错了什么?我也尝试过:

egrep "[\x{00FF}-\x{FFFF}]" file.xml 
Run Code Online (Sandbox Code Playgroud)

(模式周围有单引号和双引号).

regex unix unicode grep

348
推荐指数
8
解决办法
25万
查看次数

Python"SyntaxError:文件中的非ASCII字符'\ xe2'"

我正在写一些python代码,我收到标题中的错误消息,从搜索这与字符集有关.

这是导致错误的行

hc = HealthCheck("instance_health", interval=15, target808="HTTP:8080/index.html")
Run Code Online (Sandbox Code Playgroud)

我无法弄清楚ANSI ASCII集中没有哪个字符?此外,搜索"\ xe2"不再提供有关出现的字符的信息.该行中的哪个字符导致问题?

我也看到了一些针对这个问题的修复,但我不确定要使用哪个.有人可以澄清问题是什么(python不解释unicode,除非被告知这样做?),以及我如何正确清理它?

编辑:以下是错误附近的所有行

def createLoadBalancer():
    conn = ELBConnection(creds.awsAccessKey, creds.awsSecretKey)
    hc = HealthCheck("instance_health", interval=15, target808="HTTP:8080/index.html")
    lb = conn.create_load_balancer('my_lb', ['us-east-1a', 'us-east-1b'],[(80, 8080, 'http'), (443, 8443, 'tcp')])
    lb.configure_health_check(hc)
    return lb
Run Code Online (Sandbox Code Playgroud)

python

166
推荐指数
8
解决办法
25万
查看次数

从CSV中删除非ASCII字符

我想从文件中删除所有非ASCII字符.

我找到了一个带有tr的解决方案,但我想我需要在修改后写回该文件.

我需要以相对良好的性能来做到这一点.

有什么建议?

awk sed

54
推荐指数
8
解决办法
9万
查看次数

CData部分未完成问题

当我在下面的XML中使用DOMDocument :: loadXML()时,我收到错误:

Warning: DOMDocument::loadXML() [domdocument.loadxml]: CData section not finished http://www.site.org/displayimage.php?album=se in Entity,
Warning: DOMDocument::loadXML() [domdocument.loadxml]: Premature end of data in tag image line 7 in Entity
Warning: DOMDocument::loadXML() [domdocument.loadxml]: Premature end of data in tag quizz line 3 in Entity
Warning: DOMDocument::loadXML() [domdocument.loadxml]: Premature end of data in tag quizzes line 2 in Entity
Fatal error: Call to a member function getElementsByTagName() on a non-object 
Run Code Online (Sandbox Code Playgroud)

在我看来,我的CData部分已关闭,但我仍然得到此错误.XML看起来像这样:

<?xml version="1.0" encoding="utf-8"?>
<quizzes>
<quizz>
<title><![CDATA[Title]]></title>
<descr><![CDATA[Some text here!]]></descr>
<tags><![CDATA[one tag, second tag]]></tags> …
Run Code Online (Sandbox Code Playgroud)

php xml parsing dom domdocument

3
推荐指数
2
解决办法
9920
查看次数

标签 统计

awk ×1

dom ×1

domdocument ×1

grep ×1

parsing ×1

php ×1

python ×1

regex ×1

sed ×1

unicode ×1

unix ×1

xml ×1