小编Tim*_*ler的帖子

Pandas Dataframe重复记录拾取错误记录

我使用的是Pandas,Jupyter笔记本和Python.我有一个包含4列和10000条记录的数据集.目前,当我使用以下代码来获取重复项时,代码会以某种方式拾取错误的记录.仅供参考:列的数据类型如下:

Initial_Date = int64
Final_Date = int64
Origin = object
sub_location = object

Run Code Online (Sandbox Code Playgroud)

我目前的代码是:

dup = df.duplicated(['Initial_Date','Final_Date','Origin','sub_location'], keep='last')

Run Code Online (Sandbox Code Playgroud)

以下是使用上述代码获取的数据集的示例:

00121980,00121980,Australia,Brighton:Queensland
00121980,00121980,Australia,Brisbane:Queensland
17021987,17021987,Bangladesh,Sylhet-Sunamganj
17021987,17021987,Brazil,Sao Paolo suburb

Run Code Online (Sandbox Code Playgroud)

如果你看前两个记录:初始和最终日期和Origin是匹配的,但sub_origin不匹配,一个是Brighton,另一个是Brisbane.

同样适用于最后两个记录,日期匹配,但Origin不相同.

据此,我了解df.duplicated没有找到正确的记录,或者我没有正确使用它.df.duplicated的数据类型是否重要？

如果我只是使用df.duplicated那么返回的布尔系列没有重复.有人可以解释/告诉我如何使用.duplicated吗？

请记住,这不是完整的数据集,但我提供的示例正是我在真实数据集中遇到的问题.我缩小了df.duplicated标准并遇到了这个错误.

谢谢你们:D

python duplicates dataframe pandas jupyter

Tim*_*ler

lucky-day

3
推荐指数

1
解决办法

806
查看次数

替换字符串中的字符并在python中返回

我正在使用Pycharm作为在python中编码的软件工具.

这些单词是文本格式,但它们应该返回不同的输出

word = "<p>Santa is fat</p>"
secondword = "Potato & Tomato"
thirdword = "Koala eats http://koala.org/ a lot</p>"

Run Code Online (Sandbox Code Playgroud)

我想将以下每个"<",">","&"替换为 " <"," >"," &"

所以输出应该是这样的

outputword = "&lt;p&gt;Santa is fat&lt;/p&gt;"
outputsecondword = "Fish &amp; Chips"
outputthirdword = ""&lt;p&gt;Koala eats <a href='http://koala.org/'>http://koala.org/</a> a lot&lt;/p&gt;"

Run Code Online (Sandbox Code Playgroud)

请注意,第三个单词是URL.我不想使用html库.我是Python的菜鸟,请为我提供简单的解决方案.我考虑使用列表,但每当我替换列表中的字符时,它都不会改变

python string replace list

Tim*_*ler

2015 05-04

0
推荐指数

1
解决办法

341
查看次数