使用语言的流式API

Joe*_*oel 6 twitter

无论如何,我只能使用Twitter的Live Straeming API检索英文推文?似乎在60-70%的非英语推文中使用"样本"或"过滤"结果.

谢谢

乔尔

小智 7

我还没有找到一个很好的解决方案,我已经使用以下方法解决了这个问题:

1)按lang属性过滤等于"en".

2)我发现几种非英语语言仍然在英文标记的推文中.所以,我下载了西班牙语,荷兰语和印尼语单词列表,并检查了推文中非英语单词出现次数.超过1,我把它丢弃为非英语.

3)我认为我也需要过滤葡萄牙语,需要对此进行调查.


saf*_*fsd 6

仅过滤来自twitter流的英语消息是一个活跃的研究领域.您可以使用现成的语言识别系统来本地处理流,并仅选择英语消息.一个这样的系统是langid.py.完全披露,我是langid.py的作者.

我所知道的另一个系统是Nakatani Shuyo的ldig.我还没有机会尝试它,但它专门用于Twitter消息的语言识别.