我有一个数据集:
367235 419895 992194
1999-01-11 8 5 1
1999-03-23 NaN 4 NaN
1999-04-30 NaN NaN 1
1999-06-02 NaN 9 NaN
1999-08-08 2 NaN NaN
1999-08-12 NaN 3 NaN
1999-08-17 NaN NaN 10
1999-10-22 NaN 3 NaN
1999-12-04 NaN NaN 4
2000-03-04 2 NaN NaN
2000-09-29 9 NaN NaN
2000-09-30 9 NaN NaN
Run Code Online (Sandbox Code Playgroud)
当我绘制它时,使用plt.plot(df, '-o')我得到这个:
但我想要的是将每列的数据点连接成一行,如下所示:
我知道matplotlib不会连接由NaN值分开的数据点.我看了所有的选项,这里用于处理丢失的数据,但所有的人都将从根本上歪曲在数据帧中的数据.这是因为数据帧中的每个值都代表一个事件; 如果我尝试用标量值替换NaN或使用插值选项,我会得到一堆实际上不在我的数据集中的点.这是插值的样子:
df_wanted2 = df.apply(pd.Series.interpolate)
如果我尝试使用,dropna我将丢失数据帧中的整行\列,这些行包含有价值的数据.
有谁知道连接我的点的方法?我怀疑我需要从数据框中提取单个数组并绘制它们,就像这里给出的建议一样,但这似乎很多工作(我的实际数据框要大得多.)有没有人有解决方案?
我有一个数据集,CategoryLevel1其中包含一个名为组的名称的列。我将nest函数应用于Categorylevel1并基于键生成了一系列svg。然后,我创建了代表整个数据集中项目的矩形,并在每个svg中重复了这些矩形。我对每个svg应用了一个过滤器,因此只能看到带有该svg键的数据集项。
我的真实数据集大于此处表示的玩具数据集。上面代码的结果是svgs的网页很长-非常混乱。为了使事情更清楚,我希望将svgs根据称为的列进行分组CategoryLevel2。这是我追求的效果:
这是我到目前为止的内容:
var doc = `Manual Name CategoryLevel1 CategoryLevel2
DOG "General Furry, Program and Subject Files" Average Quantity and Planning Edibles
TR Senate Committee on animal Standards Bowl and Plate Design Edibles
TR Published Canine Bowl and Plate Design Edibles
TR Canine case files Bowl and Plate Design Edibles
DOG Canine Files Avoiding Neck Strain Edibles
DOG Canine Files Drooling Edibles
DOG Canine Files Drooling Edibles
DG ADVERTISING At home At home
DG …Run Code Online (Sandbox Code Playgroud)我有一个图像目录,其中包含许多无法识别的重复项。我的目标是识别重复项。由于重复项已被裁剪、调整大小或转换为不同的图像格式,因此无法通过比较其哈希值来检测它们。
我编写了一个可以成功检测重复项的脚本,但有一个主要缺点:该脚本速度很慢。在对包含 60 个项目的文件夹进行测试时,运行需要五个小时(这也可能反映了我的计算机越来越有问题且速度缓慢)。由于我的目录中有大约 66,000 个图像,因此我估计脚本需要 229 天才能完成。
有人可以提出解决方案吗?我的研究表明,您可以通过在循环完成时“释放”存储在变量中的图像来释放内存,但有关如何执行此操作的所有信息似乎都是用 C 编写的,而不是用 Python 编写的。我也想过尝试使用orb而不是 sift,但担心它的准确性。有谁对这两种选择中哪一种更好有建议吗?或者重写脚本以减少内存占用的方法?提前谢谢了。
from __future__ import division
import cv2
import numpy as np
import glob
import pandas as pd
listOfTitles1 = []
listOfTitles2 = []
listOfSimilarities = []
# Sift and Flann
sift = cv2.xfeatures2d.SIFT_create()
index_params = dict(algorithm=0, trees=5)
search_params = dict()
flann = cv2.FlannBasedMatcher(index_params, search_params)
# Load all the images1
countInner = 0
countOuter = 1
folder = r"/Downloads/images/**/*"
for a in glob.iglob(folder,recursive=True):
for …Run Code Online (Sandbox Code Playgroud) python ×2
d3.js ×1
html ×1
javascript ×1
matplotlib ×1
opencv ×1
orb ×1
pandas ×1
plot ×1
sift ×1