小编mk_*_*sch的帖子

Python中单词列表中的共现矩阵

我有一个名单列表,如:

names = ['A', 'B', 'C', 'D']

Run Code Online (Sandbox Code Playgroud)

和文件清单,在每个文件中提到了一些这些名称.

document =[['A', 'B'], ['C', 'B', 'K'],['A', 'B', 'C', 'D', 'Z']]

Run Code Online (Sandbox Code Playgroud)

我想得到一个输出作为共现矩阵,如:

  A  B  C  D
A 0  2  1  1
B 2  0  2  1
C 1  2  0  1
D 1  1  1  0

Run Code Online (Sandbox Code Playgroud)

在R中有一个针对这个问题的解决方案(创建共生矩阵),但我无法在Python中实现.我想在熊猫中做到这一点,但还没有进展!

python list matrix find-occurrences sklearn-pandas

mk_*_*sch

2017 05-23

9
推荐指数

6
解决办法

1万
查看次数

在Python中查找数字列表的频率分布

我有一长串数字，如下所示。我想找到每个数字的频率分布，但我无法使用 Counter 函数来获取每个项目的频率，因为它们是整数，并且我收到错误，它是不可迭代的，因此我无法将列表转换为字符串。我检查了类似的问题，但它们对我不起作用。

data=[1.0, 2.0, 1.0, 1.0, 1.0, 0.0, 0.0, 0.0, 15.0, 0.0, 0.0, 0.0, 0.0, 3.0, 1.0, 1.0, 1.0, 0.0, 0.0, 1.0, 7.0, 1.0, 0.0, 0.0, 4.0, 3.0, 3.0, 1.0, 1.0, 2.0, 4.0, 0.0, 1.0, 7.0, 2.0, 1.0, 1.0, 4.0, 1.0, 0.0, 0.0, 1.0, 1.0, 1.0, 1.0, 1.0, 2.0, 3.0, 2.0, 1.0, 1.0, 0.0, 1.0, 1.0, 1.0, 0.0, 10.0, 0.0, 1.0, 1.0, 0.0, 0.0, 1.0, 2.0, 3.0, 0.0, 3.0, 2.0, 11.0, 0.0, 5.0, 2.0, 0.0, 1.0, 2.0, 1.0, 8.0, …

Run Code Online (Sandbox Code Playgroud)

string list frequency-distribution python-2.7

mk_*_*sch

2016 11-12

5
推荐指数

1
解决办法

1万
查看次数

将数据帧列拆分为Pandas中的相等窗口

我有一个像下面这样的数据帧,我打算用size = 30每个数据块提取窗口,然后为每个数据块写入循环,并调用其他函数.

index = pd.date_range(start='2016-01-01', end='2016-04-01', freq='D')
data = pd.DataFrame(np.random.rand(len(index)), index = index, columns=['random'])

Run Code Online (Sandbox Code Playgroud)

我找到了以下功能,但我想知道是否有更有效的方法.

def split(df, chunkSize = 30): 
    listOfDf = list()
    numberChunks = len(df) // chunkSize + 1
    for i in range(numberChunks):
        listOfDf.append(df[i*chunkSize:(i+1)*chunkSize])
    return listOfDf

Run Code Online (Sandbox Code Playgroud)

python split chunks dataframe pandas

mk_*_*sch

2017 07-25

4
推荐指数

2
解决办法

1710
查看次数

如何将JSON日期转换为Python中的特殊格式？

我在Python 2.7中解析包含的JSON文件

"TimestampUtc":"\/Date(1477393888000)\/

Run Code Online (Sandbox Code Playgroud)

我想解析这个文件并将日期转换为:

8:11 a.m. Oct. 25, 2016

Run Code Online (Sandbox Code Playgroud)

原始时区在美国,我希望获得完全相同的输出.但这种格式并不常见,其他类似的问题也没有回答.有什么想法怎么做？

python datetime json data-conversion

mk_*_*sch

2016 11-30

3
推荐指数

1
解决办法

2945
查看次数

在Pandas中总结两个具有相同索引的数据帧

我想在Pandas中添加具有相同索引的4个Dataframe的值.如果有两个数据帧,df1和df2,我们可以写:

df1.add(df2)

Run Code Online (Sandbox Code Playgroud)

对于3个数据帧:

df3.add(df2.add(df1))

Run Code Online (Sandbox Code Playgroud)

我想知道在Python中是否有更通用的方法.

python addition dataframe pandas

mk_*_*sch

2017 07-08

3
推荐指数

1
解决办法

1150
查看次数

在 Pandas 中使用 DataFrame.where 方法时出现 ValueError

我正在编写以下代码，我只想使用pd.where方法获取值的前 3 分钟，但出现以下错误：ValueError: Array conditional must be same shape as self

import pandas as pd
import numpy as np

index = pd.date_range(start = '2017-06-01 00:00', end='2017-06-01 01:00', freq='1min')
values = np.arange(0, len(index))
df = pd.DataFrame(values, index = index)

df.where(df.index <= df.index[0] + pd.DateOffset(minutes=3), np.nan)

Run Code Online (Sandbox Code Playgroud)

此错误还有另一个问题，但上下文不同。

整数索引的代码似乎运行良好，但对于时间序列我有问题。

python datetime where dataframe pandas

mk_*_*sch

2020 06-20

3
推荐指数

1
解决办法

3711
查看次数

计算Pandas中条件行的值频率

我有一个数据帧df,如:

Name   title freq
A       k1  1
A       k1  1
A       k1  2
A       k1  2
A       k1  2
M       k1  1
M       k1  1
M       k1  1
M       k1  2
M       k1  2
M       k1  2
M       k1  2
A       k2  1
A       k2  1
A       k2  1
A       k2  2
A       k2  2
A       k2  2
A       k2  2
M       k2  1
M       k2  1
M       k2  1
M       k2  1
M       k2  1
M       k2  2
M …

Run Code Online (Sandbox Code Playgroud)

python count dataframe pandas pandas-groupby

mk_*_*sch

2017 11-10

2
推荐指数

2
解决办法

469
查看次数