小编goo*_*odX的帖子

来自数据帧熊猫的数据的多线程

我正在努力使用多线程来计算在篮子上有不同购物项目的客户列表之间的相关性.所以我有一个由1,000个客户组成的熊猫数据框,这意味着我必须计算100万次相关性,这需要很长时间来处理

数据框的示例如下所示:

  ID     Item       
    1    Banana    
    1    Apple     
    2    Orange    
    2    Banana    
    2    Tomato    
    3    Apple     
    3    Tomato    
    3    Orange    
Run Code Online (Sandbox Code Playgroud)

这是代码的简化版本:

import pandas as pd

def relatedness (customer1, customer2):
    # do some calculations to measure the relation between the customers

data= pd.read_csv(data_file)
customers_list= list (set(data['ID']))

relatedness_matrix = pd.DataFrame(index=[customers_list], columns=[customers_list])
for i in customers_list:
    for j in customer_list:
        relatedness_matrix.loc[i,j] = relatedness (i,j)
Run Code Online (Sandbox Code Playgroud)

提前致谢!

python multithreading bigdata dataframe

6
推荐指数
2
解决办法
1万
查看次数

Python:如何按特定字符的数量对列表进行排序

我正在尝试编写一个程序,根据特定字符的计数(即点)对字符串列表进行排序 .

['C222.', 'C4444', 'C22..', 'C333.', 'C2222']我的列表是如何导入的,但我需要像这样:

['C2222', 'C4444', 'C333.', 'C222.', 'C22..']
Run Code Online (Sandbox Code Playgroud)

如果项目具有相同的点数,我不关心如何对项目进行排序

提前致谢!

python list

0
推荐指数
1
解决办法
64
查看次数

标签 统计

python ×2

bigdata ×1

dataframe ×1

list ×1

multithreading ×1