小编Mia*_*Mia的帖子

在Python Pandas中查找两列的交集 - >字符串列表

我想计算A列和B列相交的实例数.A列和B列中的行是字符串列表.例如,列A可以包含[汽车,乘客,卡车],列B可以包含[汽车,房屋,花卉,卡车].由于在这种情况下,2个字符串重叠,列C应显示 - > 2

我试过了(这些都没有):

df['unique'] = np.unique(frame[['colA', 'colB']])
Run Code Online (Sandbox Code Playgroud)

要么

def unique(colA, colB):
    unique1 = list(set(colA) & set(colB))
    return unique1

df['unique'] = df.apply(unique, args=(df['colA'], frame['colB']))
Run Code Online (Sandbox Code Playgroud)

TypeError :('unique()需要2个位置参数,但3个被赋予','发生在索引文章')

python list unique pandas

9
推荐指数
1
解决办法
5618
查看次数

Python,Pandas和Chi-Squared独立测试

我对Python和统计学都很陌生.我正在尝试应用Chi Squared Test来确定先前的成功是否会影响一个人的变化水平(百分比明智,这似乎确实如此,但我想看看我的结果是否具有统计学意义).

我的问题是:我这样做了吗?我的结果说p值是0.0,这意味着我的变量之间存在显着的关系(这当然是我想要的......但是对于p值来说0看起来有点太完美了,所以我是想知道我是否错误编码明智了).

这是我做的:

import numpy as np
import pandas as pd
import scipy.stats as stats

d = {'Previously Successful' : pd.Series([129.3, 182.7, 312], index=['Yes - changed strategy', 'No', 'col_totals']),
 'Previously Unsuccessful' : pd.Series([260.17, 711.83, 972], index=['Yes - changed strategy', 'No', 'col_totals']),
 'row_totals' : pd.Series([(129.3+260.17), (182.7+711.83), (312+972)], index=['Yes - changed strategy', 'No', 'col_totals'])}

total_summarized = pd.DataFrame(d)

observed = total_summarized.ix[0:2,0:2]
Run Code Online (Sandbox Code Playgroud)

输出: 观察

expected =  np.outer(total_summarized["row_totals"][0:2],
                 total_summarized.ix["col_totals"][0:2])/1000

expected = pd.DataFrame(expected)

expected.columns = ["Previously Successful","Previously Unsuccessful"]
expected.index = ["Yes - changed strategy","No"] …
Run Code Online (Sandbox Code Playgroud)

python statistics numpy scipy pandas

6
推荐指数
1
解决办法
9892
查看次数

如何对 pandas 数据框中的字符串进行词形还原?

我有一个 Python Pandas 数据框,我需要对其中两列中的单词进行词形还原。我正在使用 spacy 来实现这一点。

import spacy
nlp = spacy.load("en")
Run Code Online (Sandbox Code Playgroud)

我正在尝试基于此示例使用词形还原(效果非常好):

doc3 = nlp(u"this is spacy lemmatize testing. programming books are more better than others")
for token in doc3: 
    print (token, token.lemma, token.lemma_)
Run Code Online (Sandbox Code Playgroud)

我已经重写了它以循环遍历数据框中一列的每一行:

for row in example['col1']:
    for token in row:
        print(token.lemma_)
Run Code Online (Sandbox Code Playgroud)

这是可行的,但是,我无法弄清楚如何用词形还原的单词替换 col1 中的单词。

我已经尝试过,它不会返回错误,但也不会替换任何单词。知道出了什么问题吗?

for row in example['col1']:
    for token in row:
        token = token.lemma_
Run Code Online (Sandbox Code Playgroud)

python lemmatization pandas spacy

5
推荐指数
1
解决办法
5510
查看次数

如何通过Mac上的终端访问XAMPP/Lampp文件夹

我最近开始在Mac上使用XAMPP,它在"共享"下安装了"lampp"文件夹,并在Finder中显示为IP地址.所以我可以通过Finder访问这些文件,但是我无法通过终端进入该文件夹.

共享文件夹根本不可见.我尝试了/ Volumes来查看所有卷,但是"lampp"没有列出,以及以某种方式安装它但是也没有用.有任何想法吗?奇怪的是我在Finder中看到了文件夹而在终端中没有看到!

xampp terminal

2
推荐指数
2
解决办法
9881
查看次数

标签 统计

pandas ×3

python ×3

lemmatization ×1

list ×1

numpy ×1

scipy ×1

spacy ×1

statistics ×1

terminal ×1

unique ×1

xampp ×1