如何将PDF文件中的行提取到csv文件中？

Question

如何将PDF文件中的行提取到csv文件中？

我想从这个PDF文件中获取美国所有大学的列表,并将其放入CSV文件中.然后我将CSV文件导入SQL服务器(这样我就可以轻松运行查询).

我尝试了几个在线pdf到csv转换器和基于Java的pdf到CSV教程.没有任何效果.今天我花了6-8个小时才完成这项工作并且失败了.当我导入csv时,我的csv文件搞砸了,我的数据库中有很多空值.我甚至尝试过搜索DHS api,它可以给我这个信息,但没有找到.

有人可以帮我提取大学,就像他们在pdf文件中显示的那样吗？

PS:你也可以看到所有大学使用这个网址.但是,您必须手动滚动以提取所有结果.这将花费太长时间,数据不会采用pdf文件中给出的格式.

Answer 1

mkl*_*mkl 9

正如在对该问题的评论中所声称的,

考虑到相当直接的页面内容流样式,数据应该可以使用不太复杂的自定义文本提取器来提取.

详细地:

页面内容流样式

常规表条目内容按条目逐项绘制,每个条目按字段按阅读顺序排列.因此,在浏览内容流时,我们不必尝试重新安排内容以建立该订单.这使得这项任务相当容易.

因此,主要工作是忽略非条目,即第一页上的标题,指示新的第一个字母开始位置的条和页码.

我们是这样做的

忽略图形和非黑色文本,它们负责标题和第一个字母条;
不接受不以SCHOOL NAME列中的数据开头的条目,该列负责处理仅存在于CAMPUS NAME列中的页码.

(其他方法也可以做到,例如忽略底页区域中的所有内容来处理页码.)

现在我们只需要将条目拆分为它们的字段.

文档结构再次有用,因为它是一个非常统一的文档,表格列在每个页面上具有相同的位置和尺寸.所以我们只需要在固定的x值下进行剖析.

只有一个绊脚石:在一些条目中,原子文本块包含不同列的内容.例如,有时将F和M列的内容绘制为单个字符串,如"YN",并通过字符间距引入光学距离.

所以我们必须逐个字符地处理文本块,而不是整体.

示例实现

我在这里使用Java和PDF库iText(当前版本5.5.7开发快照).这完全不意味着它不能做一个使用不同的设置,这仅仅是建立我最习惯.

由于分离器我用的是制表符,因为其他可能的候选人还出现作为文本的一部分,我不希望有应对逃避它们.

这是RenderListener为了处理内容而引入的自定义类,如上所述:

public class CertifiedSchoolListExtractionStrategy implements RenderListener
{
    public CertifiedSchoolListExtractionStrategy(Appendable data, Appendable nonData)
    {
        this.data = data;
        this.nonData = nonData;
    }

    //
    // RenderListener implementation
    //
    @Override
    public void beginTextBlock() { }

    @Override
    public void endTextBlock() { }

    @Override
    public void renderImage(ImageRenderInfo renderInfo) { }

    @Override
    public void renderText(TextRenderInfo renderInfo)
    {
        try
        {
            Vector startPoint = renderInfo.getBaseline().getStartPoint();
            BaseColor fillColor = renderInfo.getFillColor();
            if (fillColor instanceof GrayColor && ((GrayColor)fillColor).getGray() == 0)
            {
                if (debug)
                    data.append(String.format("%4d\t%3.3f %3.3f\t%s\n", chunk, startPoint.get(I1), startPoint.get(I2), renderInfo.getText()));
                for (TextRenderInfo info : renderInfo.getCharacterRenderInfos())
                {
                    renderCharacter(info);
                }
            }
            else
            {
                if (debug)
                    nonData.append(String.format("%4d\t%3.3f %3.3f\t%s\n", chunk, startPoint.get(I1), startPoint.get(I2), renderInfo.getText()));
                if (currentField > -1)
                    finishEntry();
                entryBuilder.append(renderInfo.getText());
            }
        }
        catch (IOException e)
        {
            e.printStackTrace();
        }
        finally
        {
            chunk++;
        }
    }

    public void renderCharacter(TextRenderInfo renderInfo) throws IOException
    {
        Vector startPoint = renderInfo.getBaseline().getStartPoint();

        float x = startPoint.get(I1);

        if (currentField > -1)
        {
            if (isInCurrentField(x))
            {
                entryBuilder.append(renderInfo.getText());
                return;
            }
            if (isInNextField(x))
            {
                currentField++;
                entryBuilder.append('\t').append(renderInfo.getText());
                return;
            }
            finishEntry();
        }
        if (isInNextField(x))
        {
            finishEntry();
            currentField = 0;
        }
        entryBuilder.append(renderInfo.getText());
    }

    public void close() throws IOException
    {
        finishEntry();
    }

    boolean isInCurrentField(float x)
    {
        if (currentField == -1)
            return false;

        if (x < fieldstarts[currentField])
            return false;

        if (currentField == fieldstarts.length - 1)
            return true;

        return x <= fieldstarts[currentField + 1];
    }

    boolean isInNextField(float x)
    {
        if (currentField == fieldstarts.length - 1)
            return false;

        if (x < fieldstarts[currentField + 1])
            return false;

        if (currentField == fieldstarts.length - 2)
            return true;

        return x <= fieldstarts[currentField + 2];
    }

    void finishEntry() throws IOException
    {
        if (entryBuilder.length() > 0)
        {
            if (currentField == fieldstarts.length - 1)
            {
                data.append(entryBuilder).append('\n');
            }
            else
            {
                nonData.append(entryBuilder).append('\n');
            }

            entryBuilder.setLength(0);
        }
        currentField = -1;
    }

    //
    // hidden members
    //
    final Appendable data, nonData;
    boolean debug = false;

    int chunk = 0;
    int currentField = -1;
    StringBuilder entryBuilder = new StringBuilder();

    final int[] fieldstarts = {20, 254, 404, 415, 431, 508, 534};
}

归档时间：	10 年，2 月前
查看次数：	3262 次
最近记录：	7 年，6 月前

如何将PDF文件中的行提取到csv文件中？

页面内容流样式

示例实现

在幕后

在PDF内部

解析由图书馆支持