我正在努力使用多线程来计算在篮子上有不同购物项目的客户列表之间的相关性.所以我有一个由1,000个客户组成的熊猫数据框,这意味着我必须计算100万次相关性,这需要很长时间来处理
数据框的示例如下所示:
ID Item
1 Banana
1 Apple
2 Orange
2 Banana
2 Tomato
3 Apple
3 Tomato
3 Orange
Run Code Online (Sandbox Code Playgroud)
这是代码的简化版本:
import pandas as pd
def relatedness (customer1, customer2):
# do some calculations to measure the relation between the customers
data= pd.read_csv(data_file)
customers_list= list (set(data['ID']))
relatedness_matrix = pd.DataFrame(index=[customers_list], columns=[customers_list])
for i in customers_list:
for j in customer_list:
relatedness_matrix.loc[i,j] = relatedness (i,j)
Run Code Online (Sandbox Code Playgroud)
提前致谢!
我正在尝试编写一个程序,根据特定字符的计数(即点)对字符串列表进行排序 .
['C222.', 'C4444', 'C22..', 'C333.', 'C2222']我的列表是如何导入的,但我需要像这样:
['C2222', 'C4444', 'C333.', 'C222.', 'C22..']
Run Code Online (Sandbox Code Playgroud)
如果项目具有相同的点数,我不关心如何对项目进行排序
提前致谢!