有人可以在MeCab默认输出上启发我吗?MeCab输出的注释是什么,我在哪里可以找到morpho分析仪的标签集
任何人都可以从MeCab中解读这个输出吗?
<s>
??????????? ??????????? ??????????? ??-??
? ? ? ??-???-??
? ? ? ??-???
?? ???? ?? ??-??
?? ?? ?? ??-?? ???????? ???
??? ???? ???? ??-?? ?? ???
? ? ?? ??-?? ????? ???
? ? ? ??? ???? ???
?? ???? ?? ??-??
? ? ? ??-???-??
? ? ? ??-???
?? ???? ?? ??-????
?? ?? ?? ??-?? ????? ???
? ?? ? ??-??
?? ??? ??? ??-?? ?? ???
? ? ? ??-???-?? …
Run Code Online (Sandbox Code Playgroud) 如果我以一个完整的日语句子开头并通过MeCab运行它,则会得到以下内容:
$ echo "???????" | mecab
?? ??,???,??,*,*,*,??,????,????
? ??,???,*,*,*,*,?,?,?
? ??,??,*,*,*,*,?,??,??
? ???,*,*,*,????,???,?,?,?
?? ???,*,*,*,???????,???,??,??,??
EOS
Run Code Online (Sandbox Code Playgroud)
如果将从上一列中获得的所有内容粉碎在一起,则会得到“ ??????????”,然后可以将其输入语音合成程序并获得输出。但是,该程序无法处理英语单词。
我把英语扔进MeCab中,它设法将它标记化(可能是天真地在空格处),但是却没有阅读:
$ echo "I am a cat" | mecab
I ??,????,??,*,*,*,*
am ??,??,*,*,*,*,*
a ??,??,*,*,*,*,*
cat ??,????,??,*,*,*,*
EOS
Run Code Online (Sandbox Code Playgroud)
即使它们不是完美的,我也希望获得这些读数,以便我可以从“ ?????????”的角度获得一些东西。
我已经在网上搜寻解决方案,尽管我确实找到了许多看起来音译足够的网站,但是我找不到自己的代码来做这件事的任何方法。在某些情况下,我通过电子邮件向网站作者发送了电子邮件,但等待了几周后仍未得到任何回复。(这些人在他们的收件箱中仅落后多远?)
我可以走很多路,但是到目前为止,我都走了一条路,这是我的复合问题:
顺便说一句,我发现软件“ VOICEROID” 可以说英语文本(很差,但足以满足我的目的)。该软件也使用MeCab(或安装中至少包含其DLL和字典文件。)它还使用另一个库Cabocha,据我所知,运行该库与MeCab完全相同。可能是针对这两个库中的任何一个使用自定义词典来完成这项工作,或者可能要在它们使用的专有AITalk库中执行代码。需要做更多的研究,我还没有弄清楚如何对他们的词典运行这两种工具来直接对其进行测试。
我正在尝试在一个新的应用程序中使用Mecab,但我无法使该库正常工作。最初,我尝试了以下应该与iOS 6兼容的存储库:
https://github.com/gumob/mecab
我尝试构建通用二进制文件,然后添加库和头文件,以及简单地将整个项目添加为依赖项,但是在两种情况下,我最终都遇到很多错误。因此,我放弃了那个,回到原来的分支:
https://github.com/FLCLjp/iPhone-libmecab
我相信它最初是为iOS 3制作的。但是,如果对存储库中包含的示例应用程序进行以下更改,则该应用程序将在iOS 9.3模拟器和设备上构建并运行:
将应用程序委托中的第26行更改为
[self.window addSubview:viewController.view];
Run Code Online (Sandbox Code Playgroud)
至
[self.window setRootViewController:viewController];
Run Code Online (Sandbox Code Playgroud)
将在“其他源”文件夹中的mecab.xcodeproj中找到的LibMecabSample目标和mecab库目标的“构建设置-体系结构”选项更改为“标准体系结构(armv7 arm64)”。
由于此版本似乎工作正常,因此我尝试将在该存储库中找到的mecab.xcodeproj实施到我的应用中。我基本上只是尝试重新创建它在LibMecabSample应用程序中的实现方式,而且一切似乎都是相同的。我什至在文本程序中对xcode项目文件进行了更改,以确保在构建设置上没有任何差异。有几个区别(ARC,启用模块和用户定义的PREBINDING-无设置),但是更改它们似乎并没有影响,并且在尝试构建时仍然出现以下错误:
CompileC /Users/username/Library/Developer/Xcode/DerivedData/myApp-alstnncsvqtenwfmppcsobrovoao/Build/Intermediates/myApp.build/Debug-iphoneos/myApp.build/Objects-normal/armv7/Mecab.o myApp/Mecab.m normal armv7 objective-c com.apple.compilers.llvm.clang.1_0.compiler
cd /Users/username/Developer/myApp
export LANG=en_US.US-ASCII
export PATH="/Applications/Xcode.app/Contents/Developer/Platforms/iPhoneOS.platform/Developer/usr/bin:/Applications/Xcode.app/Contents/Developer/usr/bin:/usr/local/bin:/usr/bin:/bin:/usr/sbin:/sbin"
/Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin/clang -x objective-c -arch armv7 -fmessage-length=0 -fdiagnostics-show-note-include-stack -fmacro-backtrace-limit=0 -std=c99 -fobjc-arc -fmodules -fmodules-cache-path=/Users/username/Library/Developer/Xcode/DerivedData/ModuleCache -fmodules-prune-interval=86400 -fmodules-prune-after=345600 -fbuild-session-file=/Users/username/Library/Developer/Xcode/DerivedData/ModuleCache/Session.modulevalidation -fmodules-validate-once-per-build-session -Wnon-modular-include-in-framework-module -Werror=non-modular-include-in-framework-module -Wno-trigraphs -fpascal-strings -O0 -fno-common -Wno-missing-field-initializers -Wno-missing-prototypes -Werror=return-type -Wunreachable-code -Wno-implicit-atomic-properties -Werror=deprecated-objc-isa-usage -Werror=objc-root-class -Wno-arc-repeated-use-of-weak -Wduplicate-method-match -Wno-missing-braces -Wparentheses -Wswitch -Wunused-function -Wno-unused-label -Wno-unused-parameter -Wunused-variable -Wunused-value -Wempty-body -Wconditional-uninitialized -Wno-unknown-pragmas -Wno-shadow -Wno-four-char-constants -Wno-conversion -Wconstant-conversion -Wint-conversion -Wbool-conversion -Wenum-conversion -Wshorten-64-to-32 …
Run Code Online (Sandbox Code Playgroud) 我在https://github.com/FLCLjp/iPhone-libmecab上找到了用于MeCab的iPhone库.我无法将其标记为所有可能的单词.具体来说,我不能将"吉本兴业"分为两部分"吉本"和"兴业".我可以使用任何选项来解决这个问题吗?iPhone库没有暴露任何东西,但它在objective-c包装器下使用C++.我假设必须有某种设置我可以更改以提供更细粒度的控制,但我不知道从哪里开始.
顺便说一句,如果有人想要标记这可能是合适的'mecab'.我还不允许创建新标签.
更新:iOS库调用libmecab.cpp中定义的mecab_sparse_tonode2().如果有人能指出我在该文件上的一些英文文档,那就足够了.
使用纳豆宝石(MeCab)是否可以将混合的片假名/平假名/汉字/阿尔法字符串转换为片假名/平假名/阿尔法?(即转换汉字).
例如,我需要转换此文本:
??????????
???????????
????English alphabet chars?????
?????????????????
进入这个:
??????????????????????????Englishalphabetchars??????????????????????????
谢谢!
mecab ×5
ios ×2
c++ ×1
cjk ×1
nlp ×1
nltk ×1
objective-c ×1
pos-tagger ×1
ruby ×1
tokenize ×1
translation ×1
xcode ×1