检测并删除噪音文本

You*_*sef 5 java text noise

给出一个包含大量数据的数据库表,删除噪声文本的最佳做法是:

  • fghfghfghfg
  • qsdqsdqsd
  • rtyrtyrty

噪音存储在"名称"字段中.

我正在使用Java标准结构处理数据.

Luk*_*keN 8

删除这样的东西并不像看起来那么容易.

对于我们人类来说,很容易看出"djkhfkjh"没有任何意义.但是计算机如何检测这种噪音呢?怎么会知道"Eyjafjallajökull"只是粉碎他的键盘,或者是过去几年中最多的山峰?

如果没有很多误报,你就无法可靠地做到这一点,所以毕竟,它会再次手动过滤假阳性和真阳性.


bma*_*ies 7

那么,您可以使用NLP方法构建分类器,并在噪声和非噪声的示例上进行训练.您可以采取的一个案例是Apache Tika的语言检测器.如果语言检测器说'打败我'可能足够好.