我的问题是如何通过多次复制自己来有效地扩展数组.我试图通过复制每个样本N次来将我的调查样本扩展到全尺寸数据集.N是签署样本的影响因子.所以我写了两个循环来完成这个任务(下面粘贴的脚本).它有效,但速度很慢.我的样本量是20,000,并尝试将其扩展到300万全尺寸..我可以尝试任何功能吗?谢谢您的帮助!
----我的剧本----
lines = np.asarray(person.read().split('\n'))
df_array = np.asarray(lines[0].split(' '))
for j in range(1,len(lines)-1):
subarray = np.asarray(lines[j].split(' '))
factor = int(round(float(subarray[-1]),0))
for i in range(1,factor):
df_array = np.vstack((df_array, subarray))
print len(df_array)
Run Code Online (Sandbox Code Playgroud) 我的问题是:如何从现有的 id 列有效地签署数据唯一的 id 号?例如:我有两列 [household_id] 和 [person_no]。我尝试创建一个新列,查询将是:home_id + '_' + person_no。
这是一个示例:
hh_id pno
682138 1
365348 1
365348 2
Run Code Online (Sandbox Code Playgroud)
想拿到:
unique_id
682138_1
365348_1
365348_2
Run Code Online (Sandbox Code Playgroud)
并将此 unique_id 添加为新列。我正在应用 Python。我的数据非常大。任何有效的方法都会很棒。谢谢!