小编Ste*_*ski的帖子

对于坏数据,Pandas dataframe read_csv

我想读一个非常大的csv(不能在excel中打开并且很容易编辑)但是在第100,000行的某个地方,有一行有一个额外的列导致程序崩溃.这行是错误的,所以我需要一种方法来忽略它是一个额外的列的事实.有大约50列,所以硬编码标题和使用名称或usecols是不可取的.我也可能在其他csv中遇到这个问题,并且想要一个通用的解决方案.遗憾的是,我在read_csv中找不到任何内容.代码就像这样简单:

def loadCSV(filePath):
    dataframe = pd.read_csv(filePath, index_col=False, encoding='iso-8859-1', nrows=1000)
    datakeys = dataframe.keys();
    return dataframe, datakeys
Run Code Online (Sandbox Code Playgroud)

python csv pandas

49
推荐指数
4
解决办法
4万
查看次数

如何使用Python中的列名检索SQL结果列值?

有没有办法在Python中使用列名而不是列索引来检索SQL结果列值?我正在使用Python 3和mySQL.我正在寻找的语法非常类似于Java构造:

Object id = rs.get("CUSTOMER_ID"); 
Run Code Online (Sandbox Code Playgroud)

我有一个包含大量列的表,为我需要访问的每个列不断计算索引真的很痛苦.此外,索引使我的代码难以阅读.

谢谢!

python mysql

45
推荐指数
6
解决办法
12万
查看次数

python中的1000位pi

我一直在考虑这个问题,我无法弄明白.也许你可以帮助我.问题是我的代码无法在python编码语言中输出1000位pi.

这是我的代码:

def make_pi():
    q, r, t, k, m, x = 1, 0, 1, 1, 3, 3
    while True:
        if 4 * q + r - t < m * t:
            yield m
            q, r, t, k, m, x = (10*q, 10*(r-m*t), t, k, (10*(3*q+r))//t - 10*m, x)
        else:
            q, r, t, k, m, x = (q*k, (2*q+r)*x, t*x, k+1, (q*(7*k+2)+r*x)//(t*x), x+2)

digits = make_pi()
pi_list = []
my_array = []
for i in range(1000):
    my_array.append(str("hello, I'm an element in …
Run Code Online (Sandbox Code Playgroud)

python pi

19
推荐指数
3
解决办法
4万
查看次数

如何将numpy.recarray转换为numpy.array?

将numpy转换recarray为普通数组的最佳方法是什么?

我可以做一个.tolist()然后再做array()一次,但这似乎有点低效..

例:

import numpy as np
a = np.recarray((2,), dtype=[('x', int), ('y', float), ('z', int)])

>>> a
  rec.array([(30408891, 9.2944097561804909e-296, 30261980),
   (44512448, 4.5273310988985789e-300, 29979040)], 
  dtype=[('x', '<i4'), ('y', '<f8'), ('z', '<i4')])

>>> np.array(a.tolist())
   array([[  3.04088910e+007,   9.29440976e-296,   3.02619800e+007],
   [  4.45124480e+007,   4.52733110e-300,   2.99790400e+007]])
Run Code Online (Sandbox Code Playgroud)

python numpy

14
推荐指数
1
解决办法
7465
查看次数

在Python中读取输入的最快方法

我想读一个包含整数列表列表的大文本文件.现在我正在做以下事情:

G = []
with open("test.txt", 'r') as f:
    for line in f:
        G.append(list(map(int,line.split())))
Run Code Online (Sandbox Code Playgroud)

但是,它需要大约17秒(通过时间).有没有办法减少这个时间?也许,有一种方法不使用地图.

python input readfile python-3.x

12
推荐指数
3
解决办法
1万
查看次数

写入csv文件时,writerow因UnicodeEncodeError失败

我有这条线:

c.writerow(new_values)
Run Code Online (Sandbox Code Playgroud)

这会将许多值写入csv文件.通常它工作正常但有时会抛出异常并且不会在csv文件中写入该行.我不知道我怎么能找出原因.

这是我现在的异常处理:

        try:
            c.writerow(new_values)
        except:
            print()
            print ("Write Error: ", new_values)
Run Code Online (Sandbox Code Playgroud)

我评论了我自己的例外,它说:

    return codecs.charmap_encode(input,self.errors,encoding_table)[0]
UnicodeEncodeError: 'charmap' codec can't encode character '\u03b1' in position 14: character maps to <undefined>
Run Code Online (Sandbox Code Playgroud)

python csv exception-handling exception

11
推荐指数
2
解决办法
9152
查看次数

寻找有关如何将PDF转换为结构化格式的建议

我想对即将拍卖中列出的一些房产做一些分析.不幸的是,运营拍卖的城市并没有以结构化格式发布信息,而是提供了700多页的拍卖物业PDF.

我想知道社区是否有任何关于如何解析所述PDF到结构化格式以插入数据库或创建属性的电子表格的想法.

这是每个页面代表的图像: 物业指南

这是一个列出一些属性的页面: 样本列表

我对python和ruby很满意所以我没有任何问题编写解决方案,但因为"列"和那些列中的数据没有必要捆绑在一起,看起来这可能是一个可疑的命题.

任何想法将不胜感激.

ruby python pdf parsing pdf-parsing

8
推荐指数
1
解决办法
3067
查看次数

python脚本在长时间运行后崩溃

我在Raspberry Pi 3上运行了一个python 2.7脚本.

class UIThread(threading.Thread):

   def __init__(self, threadID, name, counter, U):

    threading.Thread.__init__(self)

    self.threadID = threadID

    self.name = name

    self.counter = counter

    self.U = U

  def run(self):

    self.U.run()

def main():

  time.sleep(3)

  try:
     try:
         ###launch a UI running as background thread#####
         U = UIlib.UI()
         thread1 = UIThread(1, "UI", 1, U)
         thread1.daemon = True
         thread1.start()

     except:
         ###if there is no monitor, lanch a fake UI class#######
         U = UIlib.nomonitorUI()
         thread1 = UIThread(1, "NMUI", 1, U)
         thread1.daemon = True
         thread1.start()

         print "No Monitor …
Run Code Online (Sandbox Code Playgroud)

python uart python-2.7 python-curses raspberry-pi3

7
推荐指数
1
解决办法
722
查看次数

如何垂直对齐多组单选按钮?

我是html和css的新手.

我有3套单选按钮.每组按钮都以单线显示.我希望按钮在各组按钮之间垂直对齐.我无法用css完成这个任务.我想避免使用表来解决这个问题.我想我可以通过设置标签的宽度来对齐单选按钮,但它不起作用.

我的单选按钮显示如下:

未对齐的单选按钮

我希望它们显示如下:

对齐的单选按钮

这是我的css:

form.remit_change_form label.fixedwidth {
    display: block;
    width: 180px;
    float: left;
}

form.remit_change_form input.radiolabel {
    width: 35px /* doesn't make any visual change! */
}
Run Code Online (Sandbox Code Playgroud)

这是我的HTML:

<div>
  <label for="tran_code" class="fixedwidth">Tran Code</label>
  <input type="radio" class="radioinput" name="tran_code" id="tran_code_22" 
    value="22"/>
  <label for="tran_code_22" class="radiolabel">22</label>
  <input type="radio" class="radioinput" name="tran_code" id="tran_code_42" 
    value="42"/>
  <label for="tran_code_42" class="radiolabel">42</label>
  <input type="radio" class="radioinput" name="tran_code" id="tran_code_52" 
    value="52"/>
  <label for="tran_code_52" class="radiolabel">52</label>
  <input type="radio" class="radioinput" name="tran_code" id="tran_code_na" 
    value="NA"/>
  <label for="tran_code_na" class="radiolabel">NA</label>
</div>
<div>
  <label for="cut_off_time" class="fixedwidth">Cut-off Time</label>
  <input type="radio" class="radioinput" name="cut_off_time" …
Run Code Online (Sandbox Code Playgroud)

html css

6
推荐指数
1
解决办法
1万
查看次数

我如何"多处理"itertools产品模块?

所以我试过尝试计算下面数字的数百万和数百万种不同的组合,但我每秒只计算大约1,750种组合,甚至没有接近我需要的速度.那么我将如何重塑这一点,以便同一事物的多个过程计算不同的部分,而不计算已经计算过的部分并保持快速的速度?下面的代码部分是我一直在使用的.任何例子将不胜感激!

from itertools import product
for chars in product("abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ12234567890!@#$%^&*?,()-=+[]/;", repeat = 4):
   print chars
Run Code Online (Sandbox Code Playgroud)

python multithreading python-itertools

6
推荐指数
1
解决办法
3843
查看次数