标签: missing-data

SQL Server 插入丢失的行

我有下表记录了每天的值。问题是有时几天不见了。我想编写一个 SQL 查询，它将：

归还失踪的日子
使用线性插值计算缺失值

所以从下面的源表：

Date           Value
--------------------
2010/01/10     10
2010/01/11     15
2010/01/13     25
2010/01/16     40

Run Code Online (Sandbox Code Playgroud)

我要回：

 Date           Value
 --------------------
 2010/01/10     10
 2010/01/11     15
 2010/01/12     20
 2010/01/13     25
 2010/01/14     30
 2010/01/15     35
 2010/01/16     40

Run Code Online (Sandbox Code Playgroud)

任何帮助将不胜感激。

t-sql missing-data linear-interpolation

Sau*_*ers

lucky-day

5
推荐指数

1
解决办法

3422
查看次数

Gnuplot：如何在日期序列中缺少数据时默认为“0”

我有一堆数据，基本上是一个日期+时间，其中包含一个我想使用 gnuplot 绘制的数字。问题是数据是从数据库中提取的，因此当一天中的某些时间活动为零时，不会创建任何行，因此我提供给 gnuplot 的“csv”文件在序列中存在间隙。

情节配置：

set term jpeg medium size 800,600
set output "yesterday.jpg"
set datafile separator ":"
set title "Yesterday's Uploads"
set xlabel "Hour of day (Eastern)" offset 0,-2
set ylabel "Items per minute"
unset key
set bmargin 10
set xdata time
set timefmt "%m/%d/%Y-%H-%M"
set xtics rotate
set style fill solid 0.5
plot "yesterday.stats" u 1:2 w boxes

Run Code Online (Sandbox Code Playgroud)

示例数据：

08/27/2013-23-00:34
08/27/2013-22-59:20
08/27/2013-22-58:79
08/27/2013-22-53:6
08/27/2013-22-52:24
08/27/2013-22-51:15
08/27/2013-22-50:12
08/27/2013-22-42:1
08/27/2013-22-38:58
08/27/2013-22-37:36

Run Code Online (Sandbox Code Playgroud)

请注意缺少的分钟（例如从 38 到 42 和 42 到 50），其中没有活动，因此没有数据库条目，因此我的绘图输入文件中没有信息。 …

gnuplot missing-data

use*_*921

2013 09-06

5
推荐指数

1
解决办法

1837
查看次数

如何在cython中使用unordered_map？

我想要一个分步指南，如何在 cython 中使用 unordered_map。

我已经从https://gist.github.com/ikuyamada/3265267将文件 unordered_map.pxd 包含到 Cython/Includes/libcpp 中，并使用了其他 3 个文件：

主要.py：

import pyximport;
pyximport.install()
from foo import F

F()

Run Code Online (Sandbox Code Playgroud)

foo.pyx：

from libcpp.unordered_map cimport unordered_map


def F():
    cdef unordered_map[int, int] my_map
    my_map[1]=11
    my_map[2]=12
    print my_map[1],my_map[2]

Run Code Online (Sandbox Code Playgroud)

foo.pyxbld: (将 foo.pyx 编译成 C++)

def make_ext(modname, pyxfilename):
    from distutils.extension import Extension
    return Extension(name=modname,
                     sources=[pyxfilename],
                     language='C++')

Run Code Online (Sandbox Code Playgroud)

当我运行 test.py 时，出现错误：

foo.cpp
C:\Program Files (x86)\Microsoft Visual Studio 9.0\VC\INCLUDE\xlocale(342) : warning C4530: C++ exception handler used, but unwind semantics are not enabled. Specify /EHsc
C:\Users\kitov\.pyxbld\temp.win-amd64-2.7\Release\pyrex\foo.cpp(316) : …

Run Code Online (Sandbox Code Playgroud)

c++ python cython missing-data ordered-map

Apo*_*tus

2014 02-13

5
推荐指数

1
解决办法

4691
查看次数

从csv导入时如何将缺失值记录为NULL

我有多个大型 csv 文件，每个文件在很多地方都有缺失值。当我将 csv 文件导入 SQLite 时，我希望将缺失值记录为 NULL，因为另一个应用程序希望缺失数据由 NULL 指示。我目前的方法没有产生预期的结果。

一个示例 CSV 文件 (test.csv) 是：

12|gamma|17|delta
67||19|zeta
96|eta||theta
98|iota|29|

Run Code Online (Sandbox Code Playgroud)

第一行完成；其他每一行都有（或打算显示！）一个丢失的项目。当我使用导入时：

.headers on
.mode column
.nullvalue NULL
CREATE TABLE t (
  id1     INTEGER  PRIMARY KEY,
  a1      TEXT,
  n1      INTEGER,
  a2      TEXT
);
.import test.csv t
SELECT
  id1, typeof(id1),
  a1,  typeof(a1),
  n1,  typeof(n1),
  a2,  typeof(a2)
FROM t;

Run Code Online (Sandbox Code Playgroud)

结果是

id1   typeof(id1)  a1      typeof(a1)  n1  typeof(n1)  a2      typeof(a2)
----  -----------  ------  ----------  --  ----------  ------  ----------
12    integer      gamma     text      17  integer     delta   text …

Run Code Online (Sandbox Code Playgroud)

csv sqlite null missing-data

use*_*814

lucky-day

5
推荐指数

1
解决办法

3885
查看次数

gsutil 没有匹配的 url，但出现在云存储浏览器中

我正在尝试检索我们放入 Cloud Storage 的数据库备份。长话短说，URL 是 gs://servername/year/date/data.sql

比这稍微复杂一点，但为了这个问题，就可以了。

无论如何，当我使用存储浏览器（项目 -> 存储 -> 存储浏览器）时，我可以进入 /server/2014/2014-09/04/ - 但这就是事情变得奇怪的地方。

子文件夹/目录仅在该日期逐步存在和消失。我可以整天进出 2014-09-04 的存储桶子文件夹，每次都会有不同的结果。有时存在增量数据，有时仅存在模式数据。尝试从存储浏览器下载任何文件都会出现一个大的“未找到”空白错误页面。没有链接，没有 http 响应代码。只是“未找到”。我们所有较旧的日期文件夹都很好。

如果我使用 gsutil 尝试检索整个子文件夹，它会显示：

CommandException：没有匹配的 URL：gs://servername/2014/2014-09-04

我运行的命令是：

gsutil.py mv gs://server/2014/2014-09-04 c:\dbrestore\

然而它就在存储浏览器中，一目了然。（只有一个 ACL，所以我知道这不是问题）为了确保我没有做一些奇怪的事情，我已经复制了它周围的日期，所以 2014-09-03 和 2014-09-05 都是完全可访问的来自存储浏览器和 gsutil。

我不知道可能出了什么问题。坦率地说，桶里的东西看起来塞满了。以前有人遇到过这个问题吗？如果有，您采取了什么措施来纠正它？

missing-data google-cloud-storage gsutil

Llo*_*oyd

lucky-day

5
推荐指数

0
解决办法

2625
查看次数

数据分析中的缺失值

我有一个数据集，其中包含两个级别 Male(M) 和 Female(F) 的变量 GENDER 有很多缺失值。我如何处理缺失值？处理这些缺失值的不同方法是什么。任何帮助，将不胜感激。

machine-learning data-analysis method-missing missing-data

Mil*_*shi

2016 02-29

5
推荐指数

2
解决办法

2670
查看次数

Pandas read_csv，读取一个带有指定为 int 的缺失值的布尔值

我正在尝试将 csv 导入到 Pandas 数据框中。我有用 1 和 0 表示的布尔变量，其中缺失值用 -9 标识。当我尝试将 dtype 指定为布尔值时，我会收到许多不同的错误，具体取决于我尝试的内容。

示例数据：test.csv

var1, var2
0,   0
0,   1
1,   3
-9,  0
0,   2
1,   7

Run Code Online (Sandbox Code Playgroud)

我尝试在导入时指定 dtype：

dtype_dict = {'var1':'bool','var2':'int'}
nan_dict = {'var1':[-9]}
foo = pd.read_csv('test.csv',dtype=dtype_dict, na_values=nan_dict)

Run Code Online (Sandbox Code Playgroud)

我收到以下错误：

ValueError：无法安全地将 |b1 的传递用户数据类型转换为第 0 列中的 int64 数据类型数据

我也试过指定真假值，

foo = pd.read_csv('test.csv',dtype=dtype_dict,na_values=nan_dict,
                 true_values=[1],false_values=[0])

Run Code Online (Sandbox Code Playgroud)

但后来我得到了一个不同的错误：

例外：必须是所有编码字节

错误的源代码说明了一些关于捕获偶尔无的信息，但无或空值正是我想要的。

python csv boolean missing-data pandas

Ree*_*een

lucky-day

5
推荐指数

1
解决办法

1685
查看次数

多类分类中缺失值的 Keras 自定义损失

您好，我的训练数据中标签中有很多缺失值，例如单个标签可以具有以下值：

[nan, 0, 0, nan, 1, 0]

Run Code Online (Sandbox Code Playgroud)

我想训练一个忽略 nan 值的分类模型。目前我已将 nan 值填充为 -1，并尝试对其进行切片。掩码不起作用，因为分类交叉熵仍然考虑到它

ix = tf.where(tf.not_equal(y_true, -1))
true = tf.gather(y_true, ix)
pred = tf.gather(y_pred, ix)
return keras.objectives.categorical_crossentropy(true, pred)

Run Code Online (Sandbox Code Playgroud)

是我到目前为止所能想到的，但它有错误

InvalidArgumentError (see above for traceback): Incompatible shapes: [131] vs. [128]
         [[Node: mul_1 = Mul[T=DT_FLOAT, _device="/job:localhost/replica:0/task:0/gpu:0"](Mean, _recv_dense_3_sample_weights_0/_13)]]

Run Code Online (Sandbox Code Playgroud)

有谁知道如何处理这个问题？

python missing-data keras tensorflow multiclass-classification

CCX*_*CXD

2019 09-14

5
推荐指数

1
解决办法

2349
查看次数

如何将数据框的两列与缺失数据合并？

这是先前问题的延伸。如何将数据框的两列组合为

data <- data.frame('a' = c('A','B','C','D','E'),
                   'x' = c("t",2,NA,NA,NA),
                   'y' = c(NA,NA,NA,4,"r"))

Run Code Online (Sandbox Code Playgroud)

显示为

'a' 'x' 'y'  
 A   t   NA  
 B   2   NA  
 C  NA   NA  
 D  NA   4  
 E  NA   r

Run Code Online (Sandbox Code Playgroud)

要得到

 'a' 'mycol'  
  A   t  
  B   2  
  C   NA  
  D   4  
  E   r

Run Code Online (Sandbox Code Playgroud)

我试过这个

cbind(data[1], mycol = na.omit(unlist(data[-1])))

Run Code Online (Sandbox Code Playgroud)

但它显然没有保留行NA。

r missing-data

Rot*_*ail

2017 08-23

5
推荐指数

1
解决办法

9520
查看次数

Statsmodels Python 缺失值

我目前正在开发一个项目，我必须填写一些缺失的值。我使用Python，我看到有一种算法可以进行缺失数据插补。该算法称为 Nipals。因此，我决定寻找一种使用它的方法，我发现 statsmodels.multivariate.pca.PCA 可以帮助我。

我有一个名为 A 的 numpy 数组，其中包含 n 行和 p 列。A 有一些缺失值，即 NaN 值。我想用PCA来填充A。但是，没有例子可以帮助我做到这一点。

有人可以帮我用 Nipals 算法填充 A 吗？

谢谢。注意：抱歉，我是法语初学者，使用英文文档对我来说并不容易。

python missing-data pca statsmodels

Mis*_*opo

lucky-day

5
推荐指数

1
解决办法

1430
查看次数

标签统计

missing-data ×10

python ×4

csv ×2

boolean ×1

c++ ×1

cython ×1

data-analysis ×1

gnuplot ×1

google-cloud-storage ×1

gsutil ×1

keras ×1

linear-interpolation ×1

machine-learning ×1

method-missing ×1

multiclass-classification ×1

null ×1

ordered-map ×1

pandas ×1

pca ×1

r ×1

sqlite ×1

statsmodels ×1

t-sql ×1

tensorflow ×1

标签 统计

标签统计