You*_*sef 5 java text noise
给出一个包含大量数据的数据库表,删除噪声文本的最佳做法是:
噪音存储在"名称"字段中.
我正在使用Java标准结构处理数据.
Luk*_*keN 8
删除这样的东西并不像看起来那么容易.
对于我们人类来说,很容易看出"djkhfkjh"没有任何意义.但是计算机如何检测这种噪音呢?怎么会知道"Eyjafjallajökull"只是粉碎他的键盘,或者是过去几年中最多的山峰?
如果没有很多误报,你就无法可靠地做到这一点,所以毕竟,它会再次手动过滤假阳性和真阳性.
bma*_*ies 7
那么,您可以使用NLP方法构建分类器,并在噪声和非噪声的示例上进行训练.您可以采取的一个案例是Apache Tika的语言检测器.如果语言检测器说'打败我'可能足够好.
归档时间:
16 年,1 月 前
查看次数:
1773 次
最近记录:
15 年,10 月 前