小编Roh*_*ute的帖子

计算矩阵中所有整数的出现次数

我有一个包含 20,000 行和 300 列的数组。每个元素都是一个整数。我想计算这个矩阵中每个整数的出现次数。

我已经尝试过以下方法：

 >frequency_Table=read.csv('huge_file.csv',header=FALSE,check.names=FALSE)
 >table(frequency_Table)

Run Code Online (Sandbox Code Playgroud)

我收到错误“尝试制作包含 >= 2^31 元素的表格”，阅读后这是有道理的。

我想要这样的东西：

1        2000
2        2023
3        5683

Run Code Online (Sandbox Code Playgroud)

基本上，这是所有数字的频率表。任何意见，将不胜感激！

Wor*_*rse

2015 12-17

2
推荐指数

1
解决办法

3380
查看次数

逐页阅读pdf

我搜索了我的问题，但在两个可用问题中没有得到我的答案

基本上我想遍历每个页面，因为我只想选择具有特定文本的页面。

我用过pyPdf。它几乎适用于我可以说的 90%，pdfs但有时它不会从页面中提取信息。

我使用了以下代码：

import pyPdf
extract = ""        
pdf = pyPdf.PdfFileReader(open('filename.pdf', "rb"))
num_of_pages = pdf.getNumPages()
for p in range(num_of_pages):
  ex = pdf.getPage(6)
  ex = ex.extractText()
  if re.search(r"to be held (at|on)",ex.lower()):
    print 'yes'
    print  ex ,"\n"
    extract = extract + ex + "\n" 
    continue

Run Code Online (Sandbox Code Playgroud)

上面的代码有效，但有时无法提取某些页面。

我也尝试使用pdfminer，但我找不到如何逐页迭代其中的 pdf。pdfminer返回pdf的整个文本。

我使用了以下代码：

def convert_pdf_to_txt(path):
  rsrcmgr = PDFResourceManager()
  retstr = StringIO()
  codec = 'utf-8'
  laparams = LAParams() …

Run Code Online (Sandbox Code Playgroud)

python pdf pypdf python-2.7 pdfminer

Roh*_*ute

2017 05-23

1
推荐指数

1
解决办法

9192
查看次数

标签统计

pdf ×1

pdfminer ×1

pypdf ×1

python ×1

python-2.7 ×1

r ×1

计算矩阵中所有整数的出现次数

逐页阅读pdf

标签 统计

小编Roh_ute的帖子

标签统计