我有下表记录了每天的值。问题是有时几天不见了。我想编写一个 SQL 查询,它将:
所以从下面的源表:
Date Value
--------------------
2010/01/10 10
2010/01/11 15
2010/01/13 25
2010/01/16 40
Run Code Online (Sandbox Code Playgroud)
我要回:
Date Value
--------------------
2010/01/10 10
2010/01/11 15
2010/01/12 20
2010/01/13 25
2010/01/14 30
2010/01/15 35
2010/01/16 40
Run Code Online (Sandbox Code Playgroud)
任何帮助将不胜感激。
我有一堆数据,基本上是一个日期+时间,其中包含一个我想使用 gnuplot 绘制的数字。问题是数据是从数据库中提取的,因此当一天中的某些时间活动为零时,不会创建任何行,因此我提供给 gnuplot 的“csv”文件在序列中存在间隙。
情节配置:
set term jpeg medium size 800,600
set output "yesterday.jpg"
set datafile separator ":"
set title "Yesterday's Uploads"
set xlabel "Hour of day (Eastern)" offset 0,-2
set ylabel "Items per minute"
unset key
set bmargin 10
set xdata time
set timefmt "%m/%d/%Y-%H-%M"
set xtics rotate
set style fill solid 0.5
plot "yesterday.stats" u 1:2 w boxes
Run Code Online (Sandbox Code Playgroud)
示例数据:
08/27/2013-23-00:34
08/27/2013-22-59:20
08/27/2013-22-58:79
08/27/2013-22-53:6
08/27/2013-22-52:24
08/27/2013-22-51:15
08/27/2013-22-50:12
08/27/2013-22-42:1
08/27/2013-22-38:58
08/27/2013-22-37:36
Run Code Online (Sandbox Code Playgroud)
请注意缺少的分钟(例如从 38 到 42 和 42 到 50),其中没有活动,因此没有数据库条目,因此我的绘图输入文件中没有信息。 …
我想要一个分步指南,如何在 cython 中使用 unordered_map。
我已经从https://gist.github.com/ikuyamada/3265267将文件 unordered_map.pxd 包含到 Cython/Includes/libcpp 中,并使用了其他 3 个文件:
主要.py:
import pyximport;
pyximport.install()
from foo import F
F()
Run Code Online (Sandbox Code Playgroud)
foo.pyx:
from libcpp.unordered_map cimport unordered_map
def F():
cdef unordered_map[int, int] my_map
my_map[1]=11
my_map[2]=12
print my_map[1],my_map[2]
Run Code Online (Sandbox Code Playgroud)
foo.pyxbld: (将 foo.pyx 编译成 C++)
def make_ext(modname, pyxfilename):
from distutils.extension import Extension
return Extension(name=modname,
sources=[pyxfilename],
language='C++')
Run Code Online (Sandbox Code Playgroud)
当我运行 test.py 时,出现错误:
foo.cpp
C:\Program Files (x86)\Microsoft Visual Studio 9.0\VC\INCLUDE\xlocale(342) : warning C4530: C++ exception handler used, but unwind semantics are not enabled. Specify /EHsc
C:\Users\kitov\.pyxbld\temp.win-amd64-2.7\Release\pyrex\foo.cpp(316) : …Run Code Online (Sandbox Code Playgroud) 我有多个大型 csv 文件,每个文件在很多地方都有缺失值。当我将 csv 文件导入 SQLite 时,我希望将缺失值记录为 NULL,因为另一个应用程序希望缺失数据由 NULL 指示。我目前的方法没有产生预期的结果。
一个示例 CSV 文件 (test.csv) 是:
12|gamma|17|delta
67||19|zeta
96|eta||theta
98|iota|29|
Run Code Online (Sandbox Code Playgroud)
第一行完成;其他每一行都有(或打算显示!)一个丢失的项目。当我使用导入时:
.headers on
.mode column
.nullvalue NULL
CREATE TABLE t (
id1 INTEGER PRIMARY KEY,
a1 TEXT,
n1 INTEGER,
a2 TEXT
);
.import test.csv t
SELECT
id1, typeof(id1),
a1, typeof(a1),
n1, typeof(n1),
a2, typeof(a2)
FROM t;
Run Code Online (Sandbox Code Playgroud)
结果是
id1 typeof(id1) a1 typeof(a1) n1 typeof(n1) a2 typeof(a2)
---- ----------- ------ ---------- -- ---------- ------ ----------
12 integer gamma text 17 integer delta text …Run Code Online (Sandbox Code Playgroud) 我正在尝试检索我们放入 Cloud Storage 的数据库备份。长话短说,URL 是 gs://servername/year/date/data.sql
比这稍微复杂一点,但为了这个问题,就可以了。
无论如何,当我使用存储浏览器(项目 -> 存储 -> 存储浏览器)时,我可以进入 /server/2014/2014-09/04/ - 但这就是事情变得奇怪的地方。
子文件夹/目录仅在该日期逐步存在和消失。我可以整天进出 2014-09-04 的存储桶子文件夹,每次都会有不同的结果。有时存在增量数据,有时仅存在模式数据。尝试从存储浏览器下载任何文件都会出现一个大的“未找到”空白错误页面。没有链接,没有 http 响应代码。只是“未找到”。我们所有较旧的日期文件夹都很好。
如果我使用 gsutil 尝试检索整个子文件夹,它会显示:
CommandException:没有匹配的 URL:gs://servername/2014/2014-09-04
我运行的命令是:
gsutil.py mv gs://server/2014/2014-09-04 c:\dbrestore\
然而它就在存储浏览器中,一目了然。(只有一个 ACL,所以我知道这不是问题)为了确保我没有做一些奇怪的事情,我已经复制了它周围的日期,所以 2014-09-03 和 2014-09-05 都是完全可访问的来自存储浏览器和 gsutil。
我不知道可能出了什么问题。坦率地说,桶里的东西看起来塞满了。以前有人遇到过这个问题吗?如果有,您采取了什么措施来纠正它?
我有一个数据集,其中包含两个级别 Male(M) 和 Female(F) 的变量 GENDER 有很多缺失值。我如何处理缺失值?处理这些缺失值的不同方法是什么。任何帮助,将不胜感激。
我正在尝试将 csv 导入到 Pandas 数据框中。我有用 1 和 0 表示的布尔变量,其中缺失值用 -9 标识。当我尝试将 dtype 指定为布尔值时,我会收到许多不同的错误,具体取决于我尝试的内容。
示例数据:test.csv
var1, var2
0, 0
0, 1
1, 3
-9, 0
0, 2
1, 7
Run Code Online (Sandbox Code Playgroud)
我尝试在导入时指定 dtype:
dtype_dict = {'var1':'bool','var2':'int'}
nan_dict = {'var1':[-9]}
foo = pd.read_csv('test.csv',dtype=dtype_dict, na_values=nan_dict)
Run Code Online (Sandbox Code Playgroud)
我收到以下错误:
ValueError:无法安全地将 |b1 的传递用户数据类型转换为第 0 列中的 int64 数据类型数据
我也试过指定真假值,
foo = pd.read_csv('test.csv',dtype=dtype_dict,na_values=nan_dict,
true_values=[1],false_values=[0])
Run Code Online (Sandbox Code Playgroud)
但后来我得到了一个不同的错误:
例外:必须是所有编码字节
错误的源代码说明了一些关于捕获偶尔无的信息,但无或空值正是我想要的。
您好,我的训练数据中标签中有很多缺失值,例如单个标签可以具有以下值:
[nan, 0, 0, nan, 1, 0]
Run Code Online (Sandbox Code Playgroud)
我想训练一个忽略 nan 值的分类模型。目前我已将 nan 值填充为 -1,并尝试对其进行切片。掩码不起作用,因为分类交叉熵仍然考虑到它
ix = tf.where(tf.not_equal(y_true, -1))
true = tf.gather(y_true, ix)
pred = tf.gather(y_pred, ix)
return keras.objectives.categorical_crossentropy(true, pred)
Run Code Online (Sandbox Code Playgroud)
是我到目前为止所能想到的,但它有错误
InvalidArgumentError (see above for traceback): Incompatible shapes: [131] vs. [128]
[[Node: mul_1 = Mul[T=DT_FLOAT, _device="/job:localhost/replica:0/task:0/gpu:0"](Mean, _recv_dense_3_sample_weights_0/_13)]]
Run Code Online (Sandbox Code Playgroud)
有谁知道如何处理这个问题?
python missing-data keras tensorflow multiclass-classification
这是先前问题的延伸。如何将数据框的两列组合为
data <- data.frame('a' = c('A','B','C','D','E'),
'x' = c("t",2,NA,NA,NA),
'y' = c(NA,NA,NA,4,"r"))
Run Code Online (Sandbox Code Playgroud)
显示为
'a' 'x' 'y'
A t NA
B 2 NA
C NA NA
D NA 4
E NA r
Run Code Online (Sandbox Code Playgroud)
要得到
'a' 'mycol'
A t
B 2
C NA
D 4
E r
Run Code Online (Sandbox Code Playgroud)
我试过这个
cbind(data[1], mycol = na.omit(unlist(data[-1])))
Run Code Online (Sandbox Code Playgroud)
但它显然没有保留行NA。
我目前正在开发一个项目,我必须填写一些缺失的值。我使用Python,我看到有一种算法可以进行缺失数据插补。该算法称为 Nipals。因此,我决定寻找一种使用它的方法,我发现 statsmodels.multivariate.pca.PCA 可以帮助我。
我有一个名为 A 的 numpy 数组,其中包含 n 行和 p 列。A 有一些缺失值,即 NaN 值。我想用PCA来填充A。但是,没有例子可以帮助我做到这一点。
有人可以帮我用 Nipals 算法填充 A 吗?
谢谢。注意:抱歉,我是法语初学者,使用英文文档对我来说并不容易。
missing-data ×10
python ×4
csv ×2
boolean ×1
c++ ×1
cython ×1
gnuplot ×1
gsutil ×1
keras ×1
null ×1
ordered-map ×1
pandas ×1
pca ×1
r ×1
sqlite ×1
statsmodels ×1
t-sql ×1
tensorflow ×1