这听起来可能很愚蠢,但是你知道如何构建文本语料库吗?我到处找了,已经有语料库了,但我想知道他们是如何建立的?例如,如果我想构建包含正面和负面推文的语料库,那么我只需制作两个文件?但是这些文件的内部呢?不明白(((( 在这个例子中,他将 pos 和 neg 推文存储在 RedisDB 中。
但是这些文件的内部呢?
这主要取决于您使用的库。XML(带有各种标签)很常见,每行一个句子也是如此。棘手的部分是首先获取数据。
例如,如果我想构建包含正面和负面推文的语料库
这是否意味着您想知道如何将推文标记为正面和负面?如果是这样,您正在寻找的就是文本分类或语义分析。
如果你想找到一堆推文,我会检查其中一个页面(只是通过我自己的快速搜索)。
Clickonf5:http://clickonf5.org/5438/download-tweets-pdf-xml-format-local-machine-server/
谷歌网上论坛:http://groups.google.com/forum/?fromgroups#! topic/twitter-development-talk/kfislDfxunI
对于如何创建语料库的一般学习,我会查看理查德·肖(Richard Xiao)撰写的《自然语言处理手册》维基百科。
| 归档时间: |
|
| 查看次数: |
2606 次 |
| 最近记录: |