小编oym*_*onk的帖子

从没有fillna或Interpolate的数据框中删除NaN值

我有一个数据集:

           367235   419895  992194
1999-01-11  8   5   1
1999-03-23  NaN 4   NaN
1999-04-30  NaN NaN 1
1999-06-02  NaN 9   NaN
1999-08-08  2   NaN NaN
1999-08-12  NaN 3   NaN
1999-08-17  NaN NaN 10
1999-10-22  NaN 3   NaN
1999-12-04  NaN NaN 4
2000-03-04  2   NaN NaN
2000-09-29  9   NaN NaN
2000-09-30  9   NaN NaN

Run Code Online (Sandbox Code Playgroud)

当我绘制它时,使用plt.plot(df, '-o')我得到这个:

但我想要的是将每列的数据点连接成一行,如下所示:

我知道matplotlib不会连接由NaN值分开的数据点.我看了所有的选项,这里用于处理丢失的数据,但所有的人都将从根本上歪曲在数据帧中的数据.这是因为数据帧中的每个值都代表一个事件; 如果我尝试用标量值替换NaN或使用插值选项,我会得到一堆实际上不在我的数据集中的点.这是插值的样子:

df_wanted2 = df.apply(pd.Series.interpolate)

如果我尝试使用,dropna我将丢失数据帧中的整行\列,这些行包含有价值的数据.

有谁知道连接我的点的方法？我怀疑我需要从数据框中提取单个数组并绘制它们,就像这里给出的建议一样,但这似乎很多工作(我的实际数据框要大得多.)有没有人有解决方案？

python plot matplotlib pandas

oym*_*onk

2017 05-23

7
推荐指数

1
解决办法

1052
查看次数

如何在页面上将小倍数的子组放置在一起？

我有一个数据集，CategoryLevel1其中包含一个名为组的名称的列。我将nest函数应用于Categorylevel1并基于键生成了一系列svg。然后，我创建了代表整个数据集中项目的矩形，并在每个svg中重复了这些矩形。我对每个svg应用了一个过滤器，因此只能看到带有该svg键的数据集项。

我的真实数据集大于此处表示的玩具数据集。上面代码的结果是svgs的网页很长-非常混乱。为了使事情更清楚，我希望将svgs根据称为的列进行分组CategoryLevel2。这是我追求的效果：

这是我到目前为止的内容：

var doc = `Manual	Name	CategoryLevel1	CategoryLevel2
DOG	"General Furry, Program and Subject Files"	Average Quantity and Planning	Edibles
TR	Senate Committee on animal Standards	Bowl and Plate Design	Edibles
TR	Published Canine	Bowl and Plate Design	Edibles
TR	Canine case files	Bowl and Plate Design	Edibles
DOG	Canine Files 	Avoiding Neck Strain	Edibles
DOG	Canine Files 	Drooling	Edibles
DOG	Canine Files 	Drooling	Edibles
DG	ADVERTISING	At home	At home
DG …

Run Code Online (Sandbox Code Playgroud)

html javascript d3.js

oym*_*onk

2019 04-01

6
推荐指数

1
解决办法

256
查看次数

有没有办法更快地运行 OpenCV 的 SIFT？

我有一个图像目录，其中包含许多无法识别的重复项。我的目标是识别重复项。由于重复项已被裁剪、调整大小或转换为不同的图像格式，因此无法通过比较其哈希值来检测它们。

我编写了一个可以成功检测重复项的脚本，但有一个主要缺点：该脚本速度很慢。在对包含 60 个项目的文件夹进行测试时，运行需要五个小时（这也可能反映了我的计算机越来越有问题且速度缓慢）。由于我的目录中有大约 66,000 个图像，因此我估计脚本需要 229 天才能完成。

有人可以提出解决方案吗？我的研究表明，您可以通过在循环完成时“释放”存储在变量中的图像来释放内存，但有关如何执行此操作的所有信息似乎都是用 C 编写的，而不是用 Python 编写的。我也想过尝试使用orb而不是 sift，但担心它的准确性。有谁对这两种选择中哪一种更好有建议吗？或者重写脚本以减少内存占用的方法？提前谢谢了。

from __future__ import division

import cv2
import numpy as np
import glob
import pandas as pd
   

listOfTitles1 = []
listOfTitles2 = []
listOfSimilarities = []
    
    # Sift and Flann
sift = cv2.xfeatures2d.SIFT_create()


index_params = dict(algorithm=0, trees=5)
search_params = dict()
flann = cv2.FlannBasedMatcher(index_params, search_params)

# Load all the images1

countInner = 0
countOuter = 1

folder = r"/Downloads/images/**/*"

for a in glob.iglob(folder,recursive=True):
    for …

Run Code Online (Sandbox Code Playgroud)

python opencv sift orb

oym*_*onk

2022 08-26

3
推荐指数

1
解决办法

3123
查看次数