我在我的项目中添加了一些功能,需要4个git提交,现在业务部门要求不再需要这些功能(超过一个月后).所以我需要从我的repo中删除那些特定的git commit(s),之后现在还有27次提交.
我需要从 pdf 中提取表格,这些表格可以是任何类型、多个标题、垂直标题、水平标题等。
我已经实现了两者的基本用例,发现 tabula 比 Camelot 做得更好,但仍然无法完美地检测所有表,我不确定它是否适用于所有类型。
因此,向实施过类似用例的专家寻求建议。
表格实现:
import tabula
tab = tabula.read_pdf('pdfs/PDF1.pdf', pages='all')
for t in tab:
print(t, "\n=========================\n")
Run Code Online (Sandbox Code Playgroud)
Camelot 实现:
import camelot
tables = camelot.read_pdf('pdfs/PDF1.pdf', pages='all', split_text=True)
tables
for tabs in tables:
print(tabs.df, "\n=================================\n")
Run Code Online (Sandbox Code Playgroud) 下面是我为替换&!)(}{][^"~*?:;\+-
字符串中的特殊字符而编写的正则表达式,但不知何故它无法替换[
&]
因为它充当正则表达式的开始和结束。我怎样才能做到这一点?
System.out.println(" &!)(}{][^\"~*?:;\\+-".replaceAll("[| |&|!|)|(|}|{|^|\"|~|*|?|:|;|\\\\|+|-]", "_"));
}
Run Code Online (Sandbox Code Playgroud)
现在的输出: _______][__________