我想通过翻译困难的单词自动为外语学习者注释文本.
例如,如果原始文本是:
El gato esta en la casa de mis vecinos
变
El gato esta en la casa de mis vecinos(邻居)
第一步是确定哪些词是困难词.这可以通过原始文本中的单词的词形还原来完成,并将它们与"简单单词"(1500-2000字的基本词汇)列表进行比较.此列表中未找到的内容将被指定为"硬字".使用Python的自然语言工具包(NLTK),这个过程看起来很简单.
有文字必须翻译成一对,如"新婚夫妇",或短语动词一定的难度."他叫我起来 "或德国的"er ruft密歇根州的 "(anrufen).这里的话不能单独对待.对于短语动词等,可能需要对语法进行一些理解.
第二步涉及根据困难单词出现的上下文获得正确的翻译.据我了解,这有效地应用了谷歌翻译等统计机器翻译系统的前半部分.我相信使用Google Translate Research API可以解决此问题,该API允许您发送要翻译的文本,并且响应中包含有关翻译中哪个单词与原始文本中的哪个单词相对应的信息.因此,您可以输入整个句子,然后从响应中删除您想要的单词.但是,您必须申请使用此API,并且它们具有使用限制,这可能是我的应用程序的问题.我宁愿找到另一种解决方案.我希望没有解决方案可以提供100%正确的翻译,他们必须手动检查,但这仍然应该加快速度.
感谢您的意见.
大卫