打开PDF文件并在那里搜索名称

fl0*_*00r 3 ruby pdf algorithm search ruby-on-rails

我有一个PDF文件.我想在那里搜索名字.

  1. 如何打开PDF并使用Ruby获取所有文本?
  2. 是否有任何算法可以找到名字?
  3. 我应该使用什么作为搜索引擎:Sphinx或更简单的东西(只是LIKE SQL查询)?

bdk*_*bdk 6

要在非结构化文本中查找专有名称,您要解决的问题的技术名称是命名实体识别或命名实体提取.有许多不同的自然语言工具包和研究论文,它们实现各种算法以试图解决这个问题.它们都不会达到完美的准确度,但它可能足以满足您的需求.我自己没有尝试过,但Stanford Named Entity Recognizer的网页上有一个Ruby Bindings的链接.