小编Roh*_*ute的帖子

计算矩阵中所有整数的出现次数

我有一个包含 20,000 行和 300 列的数组。每个元素都是一个整数。我想计算这个矩阵中每个整数的出现次数。在此输入图像描述

我已经尝试过以下方法:

 >frequency_Table=read.csv('huge_file.csv',header=FALSE,check.names=FALSE)
 >table(frequency_Table)
Run Code Online (Sandbox Code Playgroud)

我收到错误“尝试制作包含 >= 2^31 元素的表格”,阅读后这是有道理的。

我想要这样的东西:

1        2000
2        2023
3        5683
Run Code Online (Sandbox Code Playgroud)

基本上,这是所有数字的频率表。任何意见,将不胜感激!

r

2
推荐指数
1
解决办法
3380
查看次数

逐页阅读pdf

我搜索了我的问题,但在两个可用问题中没有得到我的答案

  1. 使用 Python pdfMiner 提取每页文本?

  2. PDFMiner - 遍历页面并将其转换为文本

基本上我想遍历每个页面,因为我只想选择具有特定文本的页面。

我用过pyPdf。它几乎适用于我可以说的 90%,pdfs但有时它不会从页面中提取信息。

我使用了以下代码:

import pyPdf
extract = ""        
pdf = pyPdf.PdfFileReader(open('filename.pdf', "rb"))
num_of_pages = pdf.getNumPages()
for p in range(num_of_pages):
  ex = pdf.getPage(6)
  ex = ex.extractText()
  if re.search(r"to be held (at|on)",ex.lower()):
    print 'yes'
    print  ex ,"\n"
    extract = extract + ex + "\n" 
    continue
Run Code Online (Sandbox Code Playgroud)

上面的代码有效,但有时无法提取某些页面。

我也尝试使用pdfminer,但我找不到如何逐页迭代其中的 pdf。pdfminer返回pdf的整个文本。

我使用了以下代码:

def convert_pdf_to_txt(path):
  rsrcmgr = PDFResourceManager()
  retstr = StringIO()
  codec = 'utf-8'
  laparams = LAParams() …
Run Code Online (Sandbox Code Playgroud)

python pdf pypdf python-2.7 pdfminer

1
推荐指数
1
解决办法
9192
查看次数

标签 统计

pdf ×1

pdfminer ×1

pypdf ×1

python ×1

python-2.7 ×1

r ×1