相关疑难解决方法(0)

如何搜索多个pdf文件的内容?

我怎样才能在目录/子目录中搜索PDF文件的内容?我正在寻找一些命令行工具.似乎grep无法搜索PDF文件.

linux pdf debian grep full-text-search

208
推荐指数
6
解决办法
10万
查看次数

在C#中使用IFilter并从数据库而不是文件系统中检索文件

对于C#Web应用程序,我希望索引存储在数据库中的PDF,DOC等文件的文本.

我一直在试验Code Project上的IFilter示例,该示例适用于文件系统中的文件,但我的文件存储在MS-SQL数据库中.

任何人都可以帮我找到一个样本来从存储在数据库中的文件中提取文本,或者知道如何修改Code Project代码以使用数据库而不是文件系统?

c# ifilter

5
推荐指数
1
解决办法
5508
查看次数

在C#中从PDF读取基于标签名称的特定值

我有一个asp.net Core 2.0 C#读取/解析P​​DF文件并获取文本的应用程序。在此,我想读取具有特定标签名称的特定值。你可以看到下面的图片我想要得到的价值171857Invoice数量并将其存储在数据库中。 在此处输入图片说明

我已经尝试过使用以下代码读取pdf iTextSharp

using (PdfReader reader = new PdfReader(fileName))
        {
            StringBuilder sb = new StringBuilder();

            ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
            for (int page = 0; page < reader.NumberOfPages; page++)
            {
                string text = PdfTextExtractor.GetTextFromPage(reader, page + 1, strategy);
                if (!string.IsNullOrWhiteSpace(text))
                {
                    sb.Append(Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(text))));
                }
            }

            var pdfText = sb.ToString();
        }
Run Code Online (Sandbox Code Playgroud)

pdfText变量中,我将从pdf中获取所有文本内容,但这似乎不是获取发票编号的正确方法。还有其他方法可以通过其标签名称从pdf读取pdf的特定内容,例如我们将提供标签名称Invoice,并且它将返回值171857,例如与其他第三方pdf阅读器库一样?

任何帮助或建议,将不胜感激。

谢谢

c# pdf itext pdfparser

4
推荐指数
1
解决办法
566
查看次数

标签 统计

c# ×2

pdf ×2

debian ×1

full-text-search ×1

grep ×1

ifilter ×1

itext ×1

linux ×1

pdfparser ×1