小智 7
我还没有找到一个很好的解决方案,我已经使用以下方法解决了这个问题:
1)按lang属性过滤等于"en".
2)我发现几种非英语语言仍然在英文标记的推文中.所以,我下载了西班牙语,荷兰语和印尼语单词列表,并检查了推文中非英语单词出现次数.超过1,我把它丢弃为非英语.
3)我认为我也需要过滤葡萄牙语,需要对此进行调查.
仅过滤来自twitter流的英语消息是一个活跃的研究领域.您可以使用现成的语言识别系统来本地处理流,并仅选择英语消息.一个这样的系统是langid.py.完全披露,我是langid.py的作者.
我所知道的另一个系统是Nakatani Shuyo的ldig.我还没有机会尝试它,但它专门用于Twitter消息的语言识别.