python中的模糊匹配日语字符串?

jai*_*meT 2 python-2.7

这个问题困扰了我一整天。

\n\n

我有两个日语字符串,我想在 Python2.7 中进行模糊匹配。目前我正在使用 fuzzywuzzy 和

\n\n
jpnStr = "\xe6\x97\xa5\xe6\x9c\xac\xe8\xaa\x9e".encode(\'utf-8\')\njpnList = ["\xe6\x97\xa5\xe6\x9c\xac\xe8\xaa\x9e1".encode(\'utf-8\'),"\xe6\x97\xa5\xe6\x9c\xac\xe8\xaa\x9e2".encode(\'utf-8\'),"\xe6\x97\xa5\xe6\x9c\xac\xe8\xaa\x9e3".encode(\'utf-8\')]\nbestmatch = process.extractOne(jpnStr, jpnList)\n
Run Code Online (Sandbox Code Playgroud)\n\n

但最终的最佳匹配始终是

\n\n
("\xe6\x97\xa5\xe6\x9c\xac\xe8\xaa\x9e1",0)\n
Run Code Online (Sandbox Code Playgroud)\n\n

我将如何解决这个问题,或者我在这里完全缺少最佳实践吗?抱歉,如果我听起来很沮丧,这已经是一段时间的障碍了。提前致谢。

\n

jai*_*meT 5

好吧,我不确定这有多大帮助,但我找到了解决方法。

\n\n

我发现我可以使用 fuzzywuzzy 模糊匹配日语字符串。

\n\n
    \n
  1. 首先,你得到Unicode的日语字符串,即“\xe6\x97\xa5\xe6\x9c\xac\xe8\xaa\x9e\xe3\x81\xa7\xe3\x81\x99”
  2. \n
  3. 然后将其作为 ascii 文本输出到文本文件中。输出将类似于“/uf34/ufeac/uewa3/...”等等。
  4. \n
  5. 然后,您读取文本文件并比较日语字符串“/uf34/ufeac/uewa3/”的 ascii 表示形式。这给出了可行的模糊匹配评级。
  6. \n
\n\n

这可能不是一个理想的方法,但它有效并且相当准确。希望这对某人有帮助。

\n