从谷歌获得奇怪的标记翻译如~~ POS = TRUNC

Nic*_*ell 7 google-translate

在通过Java库翻译Google Translate API中的短语时,我突然得到同样奇怪的标记.英语→瑞典语的示例包括:

Vector graphics ? vektor~~POS=TRUNC grafikk~~POS=HEADCOMP

Javascript ? Javascript script~~POS=HEADCOMP
Run Code Online (Sandbox Code Playgroud)

看起来它与复合名词处理有关.这是API的一个功能,我可以以某种方式停用或者这是服务器端的新错误?

unh*_*mer 1

这看起来像是服务器端翻译器中的错误。我也在网站上找到它, https://translate.google.com/#view=home&op=translate&sl=ru&tl=no&text=%D0%9E%D0%B1%D1%89%D0%B5%D0%B6 %D0%B8%D1%82%D0%B8%D0%B5给了我vandrer~~POS=TRUNC

在 NLP 中,“POS”表示词性,“HEADCOMP”听起来可能是名词复合词的中心词,我猜它们截断了复合词的非中心部分(实际上从未变形)。因此,谷歌翻译正在泄露其一些内部结构。令人惊讶的是,此类标签是基于规则/基于知识的系统的主要内容,而谷歌通常只采用纯机器学习方法,回避硬编码知识。(一种可能性是,他们使用名词复合分析器来扩展训练集(然后在其上运行机器学习,类似于 Systran 和 Koehn在使用基于规则的机器翻译系统翻译的并行语料库上训练统计机器翻译),但脚本中的一个错误,用于在训练之前清理标签。)

如果它是一个开源系统,找出他们使用的系统会很有趣,但不幸的是,这些标签实际上无法通过谷歌搜索,因为网络现在充斥着垃圾邮件机器翻译(和非后期编辑)页面。这些标签。