python中的模糊匹配日语字符串？

Question

python中的模糊匹配日语字符串？

这个问题困扰了我一整天。

\n\n

我有两个日语字符串，我想在 Python2.7 中进行模糊匹配。目前我正在使用 fuzzywuzzy 和

\n\n

jpnStr = "\xe6\x97\xa5\xe6\x9c\xac\xe8\xaa\x9e".encode(\'utf-8\')\njpnList = ["\xe6\x97\xa5\xe6\x9c\xac\xe8\xaa\x9e1".encode(\'utf-8\'),"\xe6\x97\xa5\xe6\x9c\xac\xe8\xaa\x9e2".encode(\'utf-8\'),"\xe6\x97\xa5\xe6\x9c\xac\xe8\xaa\x9e3".encode(\'utf-8\')]\nbestmatch = process.extractOne(jpnStr, jpnList)\n

Run Code Online (Sandbox Code Playgroud)\n\n

但最终的最佳匹配始终是

\n\n

("\xe6\x97\xa5\xe6\x9c\xac\xe8\xaa\x9e1",0)\n

Run Code Online (Sandbox Code Playgroud)\n\n

我将如何解决这个问题，或者我在这里完全缺少最佳实践吗？抱歉，如果我听起来很沮丧，这已经是一段时间的障碍了。提前致谢。

\n

Answer 1

jai*_*meT 5

好吧，我不确定这有多大帮助，但我找到了解决方法。

\n\n

我发现我可以使用 fuzzywuzzy 模糊匹配日语字符串。

\n\n

首先，你得到Unicode的日语字符串，即“\xe6\x97\xa5\xe6\x9c\xac\xe8\xaa\x9e\xe3\x81\xa7\xe3\x81\x99”
然后将其作为 ascii 文本输出到文本文件中。输出将类似于“/uf34/ufeac/uewa3/...”等等。
然后，您读取文本文件并比较日语字符串“/uf34/ufeac/uewa3/”的 ascii 表示形式。这给出了可行的模糊匹配评级。

\n\n

这可能不是一个理想的方法，但它有效并且相当准确。希望这对某人有帮助。

\n

归档时间：	9 年，12 月前
查看次数：	1590 次
最近记录：	9 年，11 月前