我想计算A列和B列相交的实例数.A列和B列中的行是字符串列表.例如,列A可以包含[汽车,乘客,卡车],列B可以包含[汽车,房屋,花卉,卡车].由于在这种情况下,2个字符串重叠,列C应显示 - > 2
我试过了(这些都没有):
df['unique'] = np.unique(frame[['colA', 'colB']])
Run Code Online (Sandbox Code Playgroud)
要么
def unique(colA, colB):
unique1 = list(set(colA) & set(colB))
return unique1
df['unique'] = df.apply(unique, args=(df['colA'], frame['colB']))
Run Code Online (Sandbox Code Playgroud)
TypeError :('unique()需要2个位置参数,但3个被赋予','发生在索引文章')
我对Python和统计学都很陌生.我正在尝试应用Chi Squared Test来确定先前的成功是否会影响一个人的变化水平(百分比明智,这似乎确实如此,但我想看看我的结果是否具有统计学意义).
我的问题是:我这样做了吗?我的结果说p值是0.0,这意味着我的变量之间存在显着的关系(这当然是我想要的......但是对于p值来说0看起来有点太完美了,所以我是想知道我是否错误编码明智了).
这是我做的:
import numpy as np
import pandas as pd
import scipy.stats as stats
d = {'Previously Successful' : pd.Series([129.3, 182.7, 312], index=['Yes - changed strategy', 'No', 'col_totals']),
'Previously Unsuccessful' : pd.Series([260.17, 711.83, 972], index=['Yes - changed strategy', 'No', 'col_totals']),
'row_totals' : pd.Series([(129.3+260.17), (182.7+711.83), (312+972)], index=['Yes - changed strategy', 'No', 'col_totals'])}
total_summarized = pd.DataFrame(d)
observed = total_summarized.ix[0:2,0:2]
Run Code Online (Sandbox Code Playgroud)
输出: 观察
expected = np.outer(total_summarized["row_totals"][0:2],
total_summarized.ix["col_totals"][0:2])/1000
expected = pd.DataFrame(expected)
expected.columns = ["Previously Successful","Previously Unsuccessful"]
expected.index = ["Yes - changed strategy","No"] …Run Code Online (Sandbox Code Playgroud) 我有一个 Python Pandas 数据框,我需要对其中两列中的单词进行词形还原。我正在使用 spacy 来实现这一点。
import spacy
nlp = spacy.load("en")
Run Code Online (Sandbox Code Playgroud)
我正在尝试基于此示例使用词形还原(效果非常好):
doc3 = nlp(u"this is spacy lemmatize testing. programming books are more better than others")
for token in doc3:
print (token, token.lemma, token.lemma_)
Run Code Online (Sandbox Code Playgroud)
我已经重写了它以循环遍历数据框中一列的每一行:
for row in example['col1']:
for token in row:
print(token.lemma_)
Run Code Online (Sandbox Code Playgroud)
这是可行的,但是,我无法弄清楚如何用词形还原的单词替换 col1 中的单词。
我已经尝试过,它不会返回错误,但也不会替换任何单词。知道出了什么问题吗?
for row in example['col1']:
for token in row:
token = token.lemma_
Run Code Online (Sandbox Code Playgroud) 我最近开始在Mac上使用XAMPP,它在"共享"下安装了"lampp"文件夹,并在Finder中显示为IP地址.所以我可以通过Finder访问这些文件,但是我无法通过终端进入该文件夹.
共享文件夹根本不可见.我尝试了/ Volumes来查看所有卷,但是"lampp"没有列出,以及以某种方式安装它但是也没有用.有任何想法吗?奇怪的是我在Finder中看到了文件夹而在终端中没有看到!