我正在写硕士论文 - NLP系统.我有一个组件 - 提取器.
它从PDF文件中提取纯文本.有一些PDF文件无法正确提取.Extractor(PDFBox库)返回如下字符串:
"┤xDn║if|d├gDF"Ti&cD╬lhdFÁhis~n╗xdf«"d┤ffih»h"
要么
"10a61a91a22a25a3a27a17a23a20a8a13a14a61a25a17"
我正在检查导致此提取问题的每个文件,并且所有这些文件的文本也无法从PDF Reader(Adobe Reader和FoxIt阅读器)进行复制粘贴.在这个阅读器中查看它们已启用,但在选择其内容并复制到剪贴板后,我得到相同的错误文本(如上所述 - 非语义正确的字符串或数字和字母串).
谁能帮帮我???
我注意到使用MySQL的"非英语"(波兰语)字符存在问题.
查询"select'abcde'=''ąbćdę'"返回"1"并且字符串不等于...
你可以帮帮我吗 ?:) 谢谢!!!
我在测试我的NLP系统时发现了一些问题.我有一个java正则表达式"(.*\\.\\s*)*Dendryt.*"和字符串"v Table of Contents List of Tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . "它只是不停止计算.
很明显,这个正则表达式的复杂性很高,我会尝试重构它.对于我未来的正则表达式开发你有什么建议吗???
谢谢.
我是db4o的新手.持久的对象图存在一个大问题.我正在尝试使用db4o从旧的persistance组件迁移到new.
在我对所有对象进行操作之前,它的图形如下所示(看看具有聚焦值的Zrodlo.Metadane.abstrakt字符串字段)[来自eclipse debuger的视图],代码如下:
Run Code Online (Sandbox Code Playgroud)ObjectContainer db=Db4o.openFile(DB_FILE); try { db.store(encja); db.commit(); } finally{ db.close(); }
alt text http://img139.imageshack.us/img139/4609/beforesave.png
之后,我尝试用代码阅读它:
ObjectContainer db = Db4o.openFile((DB_FILE));
try{
Query q = db.query();
q.constrain(EncjaDanych.class);
ObjectSet<Object> objectSet = q.execute();
logger.debug("objectSet.size" + objectSet.size());
EncjaDanych encja = (EncjaDanych) objectSet.get(0);
logger.debug("ENCJA" + encja.toString());
return encja;
}finally{
db.close();
}
Run Code Online (Sandbox Code Playgroud)
我得到了它(如下图所示) - 字符串字段"abstrakt"现在为空! alt text http://img412.imageshack.us/img412/7162/aftersave.png
我使用ObjectManager(下面的图片)看看它,abstrakt字段在那里有非null值!相同的值,即第1张图片上的值.
alt text http://img341.imageshack.us/img341/1170/objectmanagerview.png
请帮帮我:)这是我与db4o的第二天.提前致谢!
我附加了一些持久化类的结构代码:
公共类EncjaDanych {Map mapaIdRepo = new HashMap(); 公共地图mapaNazwaRepo = new HashMap(); }
!!!!!!!!更新:当我试图只读取Metadane对象(只有一个这样的对象)时,它没问题 - 它的字符串字段abstrakt可以正确读取.
try{
Query q = db.query();
q.constrain(Metadane.class);
ObjectSet<Object> …Run Code Online (Sandbox Code Playgroud)