标签: missing-data

SQL Server 插入丢失的行

我有下表记录了每天的值。问题是有时几天不见了。我想编写一个 SQL 查询,它将:

  1. 归还失踪的日子
  2. 使用线性插值计算缺失值

所以从下面的源表:

Date           Value
--------------------
2010/01/10     10
2010/01/11     15
2010/01/13     25
2010/01/16     40
Run Code Online (Sandbox Code Playgroud)

我要回:

 Date           Value
 --------------------
 2010/01/10     10
 2010/01/11     15
 2010/01/12     20
 2010/01/13     25
 2010/01/14     30
 2010/01/15     35
 2010/01/16     40
Run Code Online (Sandbox Code Playgroud)

任何帮助将不胜感激。

t-sql missing-data linear-interpolation

5
推荐指数
1
解决办法
3422
查看次数

Gnuplot:如何在日期序列中缺少数据时默认为“0”

我有一堆数据,基本上是一个日期+时间,其中包含一个我想使用 gnuplot 绘制的数字。问题是数据是从数据库中提取的,因此当一天中的某些时间活动为零时,不会创建任何行,因此我提供给 gnuplot 的“csv”文件在序列中存在间隙。

情节配置:

set term jpeg medium size 800,600
set output "yesterday.jpg"
set datafile separator ":"
set title "Yesterday's Uploads"
set xlabel "Hour of day (Eastern)" offset 0,-2
set ylabel "Items per minute"
unset key
set bmargin 10
set xdata time
set timefmt "%m/%d/%Y-%H-%M"
set xtics rotate
set style fill solid 0.5
plot "yesterday.stats" u 1:2 w boxes
Run Code Online (Sandbox Code Playgroud)

示例数据:

08/27/2013-23-00:34
08/27/2013-22-59:20
08/27/2013-22-58:79
08/27/2013-22-53:6
08/27/2013-22-52:24
08/27/2013-22-51:15
08/27/2013-22-50:12
08/27/2013-22-42:1
08/27/2013-22-38:58
08/27/2013-22-37:36
Run Code Online (Sandbox Code Playgroud)

请注意缺少的分钟(例如从 38 到 42 和 42 到 50),其中没有活动,因此没有数据库条目,因此我的绘图输入文件中没有信息。 …

gnuplot missing-data

5
推荐指数
1
解决办法
1837
查看次数

如何在cython中使用unordered_map?

我想要一个分步指南,如何在 cython 中使用 unordered_map。

我已经从https://gist.github.com/ikuyamada/3265267将文件 unordered_map.pxd 包含到 Cython/Includes/libcpp 中,并使用了其他 3 个文件:

主要.py:

import pyximport;
pyximport.install()
from foo import F

F()
Run Code Online (Sandbox Code Playgroud)

foo.pyx:

from libcpp.unordered_map cimport unordered_map


def F():
    cdef unordered_map[int, int] my_map
    my_map[1]=11
    my_map[2]=12
    print my_map[1],my_map[2]
Run Code Online (Sandbox Code Playgroud)

foo.pyxbld: (将 foo.pyx 编译成 C++)

def make_ext(modname, pyxfilename):
    from distutils.extension import Extension
    return Extension(name=modname,
                     sources=[pyxfilename],
                     language='C++')
Run Code Online (Sandbox Code Playgroud)

当我运行 test.py 时,出现错误:

foo.cpp
C:\Program Files (x86)\Microsoft Visual Studio 9.0\VC\INCLUDE\xlocale(342) : warning C4530: C++ exception handler used, but unwind semantics are not enabled. Specify /EHsc
C:\Users\kitov\.pyxbld\temp.win-amd64-2.7\Release\pyrex\foo.cpp(316) : …
Run Code Online (Sandbox Code Playgroud)

c++ python cython missing-data ordered-map

5
推荐指数
1
解决办法
4691
查看次数

从csv导入时如何将缺失值记录为NULL

我有多个大型 csv 文件,每个文件在很多地方都有缺失值。当我将 csv 文件导入 SQLite 时,我希望将缺失值记录为 NULL,因为另一个应用程序希望缺失数据由 NULL 指示。我目前的方法没有产生预期的结果。

一个示例 CSV 文件 (test.csv) 是:

12|gamma|17|delta
67||19|zeta
96|eta||theta
98|iota|29|
Run Code Online (Sandbox Code Playgroud)

第一行完成;其他每一行都有(或打算显示!)一个丢失的项目。当我使用导入时:

.headers on
.mode column
.nullvalue NULL
CREATE TABLE t (
  id1     INTEGER  PRIMARY KEY,
  a1      TEXT,
  n1      INTEGER,
  a2      TEXT
);
.import test.csv t
SELECT
  id1, typeof(id1),
  a1,  typeof(a1),
  n1,  typeof(n1),
  a2,  typeof(a2)
FROM t;
Run Code Online (Sandbox Code Playgroud)

结果是

id1   typeof(id1)  a1      typeof(a1)  n1  typeof(n1)  a2      typeof(a2)
----  -----------  ------  ----------  --  ----------  ------  ----------
12    integer      gamma     text      17  integer     delta   text …
Run Code Online (Sandbox Code Playgroud)

csv sqlite null missing-data

5
推荐指数
1
解决办法
3885
查看次数

gsutil 没有匹配的 url,但出现在云存储浏览器中

我正在尝试检索我们放入 Cloud Storage 的数据库备份。长话短说,URL 是 gs://servername/year/date/data.sql

比这稍微复杂一点,但为了这个问题,就可以了。

无论如何,当我使用存储浏览器(项目 -> 存储 -> 存储浏览器)时,我可以进入 /server/2014/2014-09/04/ - 但这就是事情变得奇怪的地方。

子文件夹/目录仅在该日期逐步存在和消失。我可以整天进出 2014-09-04 的存储桶子文件夹,每次都会有不同的结果。有时存在增量数据,有时仅存在模式数据。尝试从存储浏览器下载任何文件都会出现一个大的“未找到”空白错误页面。没有链接,没有 http 响应代码。只是“未找到”。我们所有较旧的日期文件夹都很好。

如果我使用 gsutil 尝试检索整个子文件夹,它会显示:

CommandException:没有匹配的 URL:gs://servername/2014/2014-09-04

我运行的命令是:

gsutil.py mv gs://server/2014/2014-09-04 c:\dbrestore\

然而它就在存储浏览器中,一目了然。(只有一个 ACL,所以我知道这不是问题)为了确保我没有做一些奇怪的事情,我已经复制了它周围的日期,所以 2014-09-03 和 2014-09-05 都是完全可访问的来自存储浏览器和 gsutil。

我不知道可能出了什么问题。坦率地说,桶里的东西看起来塞满了。以前有人遇到过这个问题吗?如果有,您采取了什么措施来纠正它?

missing-data google-cloud-storage gsutil

5
推荐指数
0
解决办法
2625
查看次数

数据分析中的缺失值

我有一个数据集,其中包含两个级别 Male(M) 和 Female(F) 的变量 GENDER 有很多缺失值。我如何处理缺失值?处理这些缺失值的不同方法是什么。任何帮助,将不胜感激。

machine-learning data-analysis method-missing missing-data

5
推荐指数
2
解决办法
2670
查看次数

Pandas read_csv,读取一个带有指定为 int 的缺失值的布尔值

我正在尝试将 csv 导入到 Pandas 数据框中。我有用 1 和 0 表示的布尔变量,其中缺失值用 -9 标识。当我尝试将 dtype 指定为布尔值时,我会收到许多不同的错误,具体取决于我尝试的内容。

示例数据:test.csv

var1, var2
0,   0
0,   1
1,   3
-9,  0
0,   2
1,   7
Run Code Online (Sandbox Code Playgroud)

我尝试在导入时指定 dtype:

dtype_dict = {'var1':'bool','var2':'int'}
nan_dict = {'var1':[-9]}
foo = pd.read_csv('test.csv',dtype=dtype_dict, na_values=nan_dict)
Run Code Online (Sandbox Code Playgroud)

我收到以下错误:

ValueError:无法安全地将 |b1 的传递用户数据类型转换为第 0 列中的 int64 数据类型数据

我也试过指定真假值,

foo = pd.read_csv('test.csv',dtype=dtype_dict,na_values=nan_dict,
                 true_values=[1],false_values=[0])
Run Code Online (Sandbox Code Playgroud)

但后来我得到了一个不同的错误:

例外:必须是所有编码字节

错误的源代码说明了一些关于捕获偶尔无的信息,但无或空值正是我想要的。

python csv boolean missing-data pandas

5
推荐指数
1
解决办法
1685
查看次数

多类分类中缺失值的 Keras 自定义损失

您好,我的训练数据中标签中有很多缺失值,例如单个标签可以具有以下值:

[nan, 0, 0, nan, 1, 0]
Run Code Online (Sandbox Code Playgroud)

我想训练一个忽略 nan 值的分类模型。目前我已将 nan 值填充为 -1,并尝试对其进行切片。掩码不起作用,因为分类交叉熵仍然考虑到它

ix = tf.where(tf.not_equal(y_true, -1))
true = tf.gather(y_true, ix)
pred = tf.gather(y_pred, ix)
return keras.objectives.categorical_crossentropy(true, pred)
Run Code Online (Sandbox Code Playgroud)

是我到目前为止所能想到的,但它有错误

InvalidArgumentError (see above for traceback): Incompatible shapes: [131] vs. [128]
         [[Node: mul_1 = Mul[T=DT_FLOAT, _device="/job:localhost/replica:0/task:0/gpu:0"](Mean, _recv_dense_3_sample_weights_0/_13)]]
Run Code Online (Sandbox Code Playgroud)

有谁知道如何处理这个问题?

python missing-data keras tensorflow multiclass-classification

5
推荐指数
1
解决办法
2349
查看次数

如何将数据框的两列与缺失数据合并?

这是先前问题的延伸。如何将数据框的两列组合为

data <- data.frame('a' = c('A','B','C','D','E'),
                   'x' = c("t",2,NA,NA,NA),
                   'y' = c(NA,NA,NA,4,"r"))
Run Code Online (Sandbox Code Playgroud)

显示为

'a' 'x' 'y'  
 A   t   NA  
 B   2   NA  
 C  NA   NA  
 D  NA   4  
 E  NA   r
Run Code Online (Sandbox Code Playgroud)

要得到

 'a' 'mycol'  
  A   t  
  B   2  
  C   NA  
  D   4  
  E   r  
Run Code Online (Sandbox Code Playgroud)

我试过这个

cbind(data[1], mycol = na.omit(unlist(data[-1])))
Run Code Online (Sandbox Code Playgroud)

但它显然没有保留行NA

r missing-data

5
推荐指数
1
解决办法
9520
查看次数

Statsmodels Python 缺失值

我目前正在开发一个项目,我必须填写一些缺失的值。我使用Python,我看到有一种算法可以进行缺失数据插补。该算法称为 Nipals。因此,我决定寻找一种使用它的方法,我发现 statsmodels.multivariate.pca.PCA 可以帮助我。

我有一个名为 A 的 numpy 数组,其中包含 n 行和 p 列。A 有一些缺失值,即 NaN 值。我想用PCA来填充A。但是,没有例子可以帮助我做到这一点。

有人可以帮我用 Nipals 算法填充 A 吗?

谢谢。注意:抱歉,我是法语初学者,使用英文文档对我来说并不容易。

python missing-data pca statsmodels

5
推荐指数
1
解决办法
1430
查看次数