单词的翻译,考虑到计算机语境,使用计算机语言处理工具

Dav*_*idw 5 python text nlp google-translate nltk

我想通过翻译困难的单词自动为外语学习者注释文本.

例如,如果原始文本是:

El gato esta en la casa de mis vecinos

El gato esta en la casa de mis vecinos(邻居)

第一步是确定哪些词是困难词.这可以通过原始文本中的单词的词形还原来完成,并将它们与"简单单词"(1500-2000字的基本词汇)列表进行比较.此列表中未找到的内容将被指定为"硬字".使用Python的自然语言工具包(NLTK),这个过程看起来很简单.

有文字必须翻译成一对,如"新婚夫妇",或短语动词一定的难度."他起来 "或德国的"er ruft密歇根州 "(anrufen).这里的话不能单独对待.对于短语动词等,可能需要对语法进行一些理解.

第二步涉及根据困难单词出现的上下文获得正确的翻译.据我了解,这有效地应用了谷歌翻译等统计机器翻译系统的前半部分.我相信使用Google Translate Research API可以解决此问题,该API允许您发送要翻译的文本,并且响应中包含有关翻译中哪个单词与原始文本中的哪个单词相对应的信息.因此,您可以输入整个句子,然后从响应中删除您想要的单词.但是,您必须申请使用此API,并且它们具有使用限制,这可能是我的应用程序的问题.我宁愿找到另一种解决方案.我希望没有解决方案可以提供100%正确的翻译,他们必须手动检查,但这仍然应该加快速度.

感谢您的意见.

大卫

小智 1

对于初始步骤,无需依赖先验词汇表 - 只需在训练语料库中累积标记计数并标记测试集中在排序词汇表中的截止点之前未出现的标记就足够了。

http://vuw.academia.edu/JosephSorell/Papers/549885/Zipfs_Law_and_Vocabulary

对于第二步,“根据难词出现的上下文获得难词的正确翻译”,是的,您需要访问 MT API 和/或人工翻译。选择最佳方法取决于您的目标。

您可以拥有正确的翻译、快速的翻译或廉价的翻译 - 我知道您不可能同时拥有这三者。