面试问题
我在面试中被问到这个问题,答案不一定是特定的编程语言,平台或工具特定的.
问题的措辞如下:
您如何获得PDF中给定单词的实例计数.答案不一定是编程,平台或工具特定.只是让我知道你将如何在内存和速度有效的方式做到这一点
我发布此问题的原因如下:
谢谢你的关注.
如果我必须编写一个程序来做到这一点,我会找到一个能够从 PDF 文件(例如Xpdf )中提取文本的 PDF 渲染库,然后计算单词数。如果这是一项单一任务或需要自动化执行非生产质量任务的任务,我只需将文件输入 pdftotext 程序,然后使用 python 解析输出文件,拆分为单词,将它们放入字典并计算出现次数。
如果我问这个面试问题,我会寻找以下几点:
现在,我不希望任何没有 PDF 经验的随机候选人会这样做,但您可以就什么是 PDF 以及什么是“单词”进行非常有意义的讨论。您会看到,PDF 将文本存储为一堆带有坐标的字符串。每个字符串不一定是一个单词。很多时候,单词会被分成几个完全独立的字符串,这些字符串绝对定位在文档中以形成单个单词。这就是为什么有时在 PDF 文档中搜索单词时您会得到奇怪的结果。因此,要在文档中实现单词搜索,您必须将这些字符串重新粘合在一起(pdftotext 会为您处理这个问题)。
这根本不是一个坏问题。
| 归档时间: |
|
| 查看次数: |
403 次 |
| 最近记录: |