小编use*_*542的帖子

如何使用java从pdf文件中获取原始文本

我有一些pdf文件,使用pdfbox我已将它们转换为文本并存储到文本文件中,现在从我要删除的文本文件

  1. 超链接
  2. 所有特殊字符
  3. 空白行
  4. 标题页脚的pdf文件
  5. "1)","2)","a)","子弹"等

我希望逐行获得有效的文本,如下所示:

我们提出了OntoGain,一种从纯文本中提取的多词概念术语进行本体学习的方法.OntoGain遵循由不同处理层定义的本体学习过程.在简单术语提取的基础上,通过聚类提取的概念来形成概念层次结构.然后,衍生的术语分类法充满了非分类关系.已经研究了几种不同的最先进的方法来实现每一层.OntoGain基于多词术语概念,因为多词或复合词具有比普通单词词更加坚实和独特的语义.我们选择了层次聚类方法和形式概念分析(FCA)算法来构建术语分类法.此外,应用关联规则算法来揭示非分类关系.还实现了一种尝试在关系概念之间执行最合适的泛化级别的方法.为了显示概念证明,实现了系统原型.OntoGain允许使用Jena Semantic Web Frame-work1将派生的本体转换为OWL.OntoGain应用于医学和计算机语料库两个独立的数据源,并将其结果与Text2Onto(一种最先进的本体学习方法)获得的类似结果进行比较.对11.5 CCD1.1结果的分析表明,OntoGain在精度方面比Text20nto表现更好,提取更正确的概念,而更有选择性地提取更少但更合理的概念.

我怎样才能做到这一点?

java pdf pdfbox

25
推荐指数
4
解决办法
8万
查看次数

如何使用stanford nlp删除停用词

我想使用stanford nlp解析文档并从中删除停用词,所以我的问题是如何使用stanford nlp删除停用词是否有任何api删除它,我找到StopWords类但我不知道如何使用这个,请建议我怎么弄这个?

谢谢

java parsing stop-words stanford-nlp

6
推荐指数
1
解决办法
6488
查看次数

如何使用java从文件中的字符串中删除特殊字符

我有文本文件它包含以下信息.我的任务是从该文本文件中删除特殊符号.我输入文件conatins

This is sample CCNA program. it contains CCNP™.

我需要的输出字符串:

This is sample CCNA program. it contains CCNP.
Run Code Online (Sandbox Code Playgroud)

怎么做请建议我.

谢谢

java regex special-characters

2
推荐指数
1
解决办法
1万
查看次数

行的正则表达式以大写字母词开头

我的文本文件中有几行文字,

James is working in London
this is a program developed in java
Program is working
Run Code Online (Sandbox Code Playgroud)

我想获得以大写字母开头的单词的行

James is working in London
Program is working
Run Code Online (Sandbox Code Playgroud)

谢谢

java regex

1
推荐指数
2
解决办法
1万
查看次数