我有一个包含 20,000 行和 300 列的数组。每个元素都是一个整数。我想计算这个矩阵中每个整数的出现次数。
我已经尝试过以下方法:
>frequency_Table=read.csv('huge_file.csv',header=FALSE,check.names=FALSE)
>table(frequency_Table)
Run Code Online (Sandbox Code Playgroud)
我收到错误“尝试制作包含 >= 2^31 元素的表格”,阅读后这是有道理的。
我想要这样的东西:
1 2000
2 2023
3 5683
Run Code Online (Sandbox Code Playgroud)
基本上,这是所有数字的频率表。任何意见,将不胜感激!
我搜索了我的问题,但在两个可用问题中没有得到我的答案
基本上我想遍历每个页面,因为我只想选择具有特定文本的页面。
我用过pyPdf。它几乎适用于我可以说的 90%,pdfs但有时它不会从页面中提取信息。
我使用了以下代码:
import pyPdf
extract = ""
pdf = pyPdf.PdfFileReader(open('filename.pdf', "rb"))
num_of_pages = pdf.getNumPages()
for p in range(num_of_pages):
ex = pdf.getPage(6)
ex = ex.extractText()
if re.search(r"to be held (at|on)",ex.lower()):
print 'yes'
print ex ,"\n"
extract = extract + ex + "\n"
continue
Run Code Online (Sandbox Code Playgroud)
上面的代码有效,但有时无法提取某些页面。
我也尝试使用pdfminer,但我找不到如何逐页迭代其中的 pdf。pdfminer返回pdf的整个文本。
我使用了以下代码:
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams() …Run Code Online (Sandbox Code Playgroud)