小编Ang*_*a Y的帖子

如何在python中有效地扩展数组?

我的问题是如何通过多次复制自己来有效地扩展数组.我试图通过复制每个样本N次来将我的调查样本扩展到全尺寸数据集.N是签署样本的影响因子.所以我写了两个循环来完成这个任务(下面粘贴的脚本).它有效,但速度很慢.我的样本量是20,000,并尝试将其扩展到300万全尺寸..我可以尝试任何功能吗?谢谢您的帮助!

----我的剧本----

lines = np.asarray(person.read().split('\n'))
df_array = np.asarray(lines[0].split(' '))
for j in range(1,len(lines)-1):
    subarray = np.asarray(lines[j].split(' '))
    factor = int(round(float(subarray[-1]),0))
    for i in range(1,factor):
        df_array = np.vstack((df_array, subarray))
print len(df_array)
Run Code Online (Sandbox Code Playgroud)

python arrays numpy

5
推荐指数
1
解决办法
1080
查看次数

从现有的两列创建唯一 ID,python

我的问题是:如何从现有的 id 列有效地签署数据唯一的 id 号?例如:我有两列 [household_id] 和 [person_no]。我尝试创建一个新列,查询将是:home_id + '_' + person_no。

这是一个示例:

hh_id       pno  
 682138    1   
 365348    1     
 365348    2
Run Code Online (Sandbox Code Playgroud)

想拿到:

unique_id
682138_1
365348_1
365348_2
Run Code Online (Sandbox Code Playgroud)

并将此 unique_id 添加为新列。我正在应用 Python。我的数据非常大。任何有效的方法都会很棒。谢谢!

python unique-id pandas

4
推荐指数
1
解决办法
6398
查看次数

标签 统计

python ×2

arrays ×1

numpy ×1

pandas ×1

unique-id ×1