小编Mic*_*l_R的帖子

从PDF复制+粘贴文本导致垃圾

我正在写硕士论文 - NLP系统.我有一个组件 - 提取器.

它从PDF文件中提取纯文本.有一些PDF文件无法正确提取.Extractor(PDFBox库)返回如下字符串:

"┤xDn║if|d├gDF"Ti&cD╬lhdFÁhis~n╗xdf«"d┤ffih»h"

要么

"10a61a91a22a25a3a27a17a23a20a8a13a14a61a25a17"

我正在检查导致此提取问题的每个文件,并且所有这些文件的文本也无法从PDF Reader(Adobe Reader和FoxIt阅读器)进行复制粘贴.在这个阅读器中查看它们已启用,但在选择其内容并复制到剪贴板后,我得到相同的错误文本(如上所述 - 非语义正确的字符串或数字和字母串).

谁能帮帮我???

pdf pdfbox

12
推荐指数
3
解决办法
4万
查看次数

MySQL和波兰语单词

我注意到使用MySQL的"非英语"(波兰语)字符存在问题.

查询"select'abcde'=''ąbćdę'"返回"1"并且字符串不等于...

你可以帮帮我吗 ?:) 谢谢!!!

mysql character

5
推荐指数
1
解决办法
2160
查看次数

java问题中的regexp

我在测试我的NLP系统时发现了一些问题.我有一个java正则表达式"(.*\\.\\s*)*Dendryt.*"和字符串"v Table of Contents List of Tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . "它只是不停止计算.

很明显,这个正则表达式的复杂性很高,我会尝试重构它.对于我未来的正则表达式开发你有什么建议吗???

谢谢.

java regex

2
推荐指数
1
解决办法
576
查看次数

db4o问题与对象图

我是db4o的新手.持久的对象图存在一个大问题.我正在尝试使用db4o从旧的persistance组件迁移到new.

在我对所有对象进行操作之前,它的图形如下所示(看看具有聚焦值的Zrodlo.Metadane.abstrakt字符串字段)[来自eclipse debuger的视图],代码如下:

  ObjectContainer db=Db4o.openFile(DB_FILE);
    try {
        db.store(encja);
        db.commit();            
    } finally{
        db.close();         
    }
Run Code Online (Sandbox Code Playgroud)

alt text http://img139.imageshack.us/img139/4609/beforesave.png

之后,我尝试用代码阅读它:

ObjectContainer db = Db4o.openFile((DB_FILE));

    try{
        Query q = db.query();
        q.constrain(EncjaDanych.class);
        ObjectSet<Object> objectSet = q.execute();
        logger.debug("objectSet.size" + objectSet.size());
        EncjaDanych encja = (EncjaDanych) objectSet.get(0);
        logger.debug("ENCJA"  + encja.toString());
        return encja;
    }finally{
        db.close();         
    }       
Run Code Online (Sandbox Code Playgroud)

我得到了它(如下图所示) - 字符串字段"abstrakt"现在为空! alt text http://img412.imageshack.us/img412/7162/aftersave.png

我使用ObjectManager(下面的图片)看看它,abstrakt字段在那里有非null值!相同的值,即第1张图片上的值.

alt text http://img341.imageshack.us/img341/1170/objectmanagerview.png

请帮帮我:)这是我与db4o的第二天.提前致谢!

我附加了一些持久化类的结构代码:

公共类EncjaDanych {Map mapaIdRepo = new HashMap(); 公共地图mapaNazwaRepo = new HashMap(); }

!!!!!!!!更新:当我试图只读取Metadane对象(只有一个这样的对象)时,它没问题 - 它的字符串字段abstrakt可以正确读取.

        try{
        Query q = db.query();
        q.constrain(Metadane.class);
        ObjectSet<Object> …
Run Code Online (Sandbox Code Playgroud)

db4o

0
推荐指数
1
解决办法
959
查看次数

标签 统计

character ×1

db4o ×1

java ×1

mysql ×1

pdf ×1

pdfbox ×1

regex ×1