默认情况下,它们都使用一些基于正则表达式的标记化。不同之处在于它们的复杂性:
它们都非常快,因为它们只运行正则表达式。如果您有非常基本的文本,没有太多标点符号或乱序字符,那么 Keras 可能是最简单的选择。
如果你真的想要一个基于神经网络的神经网络,它可以正确解析数字、日期等,并可能执行词性标记,你可以使用实体识别:
上述两种方法比任何基于正则表达式的方法都慢,但这取决于您要处理的源文本。
| 归档时间: |
|
| 查看次数: |
2102 次 |
| 最近记录: |