如何摆脱Oracle数据库中的NUL字符?

Esk*_*nen 5 oracle oracle11g

数据库:我有一个 Oracle11g 数据库,其中包含一个包含大约 1000 万行和大约 40 列的表。数据源自打孔卡时代,并已从一个 Oracle 版本转换到下一个版本数次。这是一个实时生产数据库,并在某种程度上持续使用。但它并不是那么重要(尤其是在夜间),以至于我无法通过昂贵的查询和更新来限制它。所以没关系。

编辑:字符集是 AL32UTF8。

问题:我注意到某些列包含 NUL 字符。我发现了由 1-4 个 NUL 字符组成的值,但理论上可以有与该列可用的字符数一样多的值。我想摆脱 NUL 字符。如果值中只有 NUL 字符,我想将该列的值更改为 SQL NULL。如果其他字符之间有 NUL 字符(我还没有看到任何情况),我想删除它们(用“”替换)。

我尝试过的

我注意到select rawtohex(mycolumn) from mytable返回例如“000000”(3 个 NUL 字符)。

select rawtohex('A') from dual; 返回“61”

select rawtohex('Ä') from dual; 返回“C385”。

我已经探索过寻找这样的 NUL 字符:

SELECT DISTINCT mycolumn 
FROM mytable
WHERE rawtohex(mycolumn) LIKE '%00%;'
Run Code Online (Sandbox Code Playgroud)

到目前为止,我还没有找到任何包含 rawtohex 将包含“00”的字符的任何列,除了只有 NUL 字符的列。所以看起来使用LIKE '%00%'是安全的。但我不确定 rawtohex 的 oracle 实现以及它使用什么样的十六进制编码。

所以......当我继续探索这条道路并最终编写一个脚本来修复垃圾时,我在问是否有人以前遇到过这个工作,你是如何解决它的。:)

Ben*_*Ben 6

我个人会CHR()用来识别空值。nul 是 ASCII 0,CHR()将返回您传入的数字的字符表示。

SQL> with the_data as (
  2  select 'a' || chr(0) || 'b' as str from dual
  3   union all
  4  select 'a' || 'c' from dual
  5         )
  6  select dump(str)
  7    from the_data
  8   where str like '%' || chr(0) || '%'
  9         ;

DUMP(STR)
----------------------------------------------------    
Typ=1 Len=3: 97,0,98
Run Code Online (Sandbox Code Playgroud)

正如您可以通过连接百分号CHR(0)(相当于 nul)看到的,您可以返回包含 nul 的行。

DUMP()返回数据类型(1 表示 VARCHAR2)字符串的长度(以字节为单位)和数据的内部表示;默认是二进制的。

但是,您需要注意多字节数据,因为它CHR()返回数字的 256 模数的等效字符:

SQL> with the_data as (
  2  select 'a' || chr(0) || 'b' as str from dual
  3   union all
  4  select 'a' || chr(256) || 'c' from dual
  5         )
  6  select dump(str)
  7    from the_data
  8   where str like '%' || chr(0) || '%'
  9         ;

DUMP(STR)
-------------------------------------------------
Typ=1 Len=3: 97,0,98
Typ=1 Len=4: 97,1,0,99
Run Code Online (Sandbox Code Playgroud)

正如你所看到的,你会在这里错误地识别一个 nul,使用CHR()DUMP()

换句话说,如果您没有多字节数据,那么最简单的方法就是简单地替换它:

update <table>
   set <column> = replace(<column>, chr(0));
Run Code Online (Sandbox Code Playgroud)

使用RAWTOHEX()也有类似问题;虽然你可以找到00但不能保证它实际上是一个空值:

SQL> with the_data as (
  2  select 'a' || chr(0) || 'b' as str from dual
  3   union all
  4  select 'a' || chr(256) || 'c' from dual
  5         )
  6  select rawtohex(str)
  7    from the_data
  8   where str like '%' || chr(0) || '%'
  9         ;

RAWTOHEX
--------
610062
61010063
Run Code Online (Sandbox Code Playgroud)

它实际上还有一个进一步的问题。想象一下你有两个字符1006然后返回的值是1006,你会发现00. 如果要使用此方法,则必须确保从字符串的开头只查看两个字符组。

由于 nul 字符的内部表示用于表示其他多字节字符的一部分,因此您不能仅仅替换它们,因为您不知道它是一个字符还是半个字符。因此,如果您使用的是多字节字符集,据我所知,您将无法做到这一点。