我有一个非常大的数据集,我无法读取整个数据集.所以,我想只读一部分进行训练,但我不知道该怎么做.任何想法将不胜感激.
假设我有这个数据框。
import pandas as pd
data = {"Date_Time": ["2018-08-14 02:00:00", "2018-08-14 01:00:00", "2018-08-14 00:00:00", "2018-08-13 23:00:00", "2018-08-13 22:00:00", "2018-08-13 21:00:00", "2018-08-13 20:00:00"],
"Date": ["2018-08-14", "2018-08-14", "2018-08-14", "2018-08-13", "2018-08-13", "2018-08-13", "2018-08-13"],
"Duration":[3, 0, 0, 10, 2, 20, 1],
"value":[4, 3, 2, 1, 0, 23, 22],
"Remark":["e", "o", "k", "x", "c", "z", "a"]
}
df = pd.DataFrame.from_dict(data)
df
Date_Time Date Duration value Remark
0 2018-08-14 02:00:00 2018-08-14 3 4 e
1 2018-08-14 01:00:00 2018-08-14 0 3 o
2 2018-08-14 00:00:00 2018-08-14 0 …Run Code Online (Sandbox Code Playgroud) 我想知道是否可以通过任何方式在Jupyter中指定内联图的大小。目前,我使用Vega库,宽度和高度不起作用。有任何解决方法。
如何在Python中获取每个标记最常出现的类别(模式)?
+------------------+----------+
| tag | category |
+------------------+----------+
| automotive | 8 |
| ba | 8 |
| bamboo | 8 |
| bamboo | 8 |
| bamboo | 8 |
| bamboo | 8 |
| bamboo | 8 |
| bamboo | 10 |
| bamboo | 8 |
| bamboo | 9 |
| bamboo | 8 |
| bamboo | 10 |
| bamboo | 8 |
| bamboo | 9 |
| bamboo …Run Code Online (Sandbox Code Playgroud) 我想将Julia中的列数据类型从字符串更改为int但到目前为止没有运气.既不工作convert()也不parse()工作.有没有办法做到这一点?
我尝试了这些但没有效果
df[:serial] = int.(collect(df[:strSerial]))
df[:serial] = map(x->parse(Int,x),df[:strSerial])
df[:serial] = Int64(df[:strSerial])
我想知道在 D3 或纯 JavaScript 中是否有任何方法可以在我读入数据时即时检查数据类型。
例如,如果我想读“iris.csv”使用d3.csv()做一个箱线图,有没有什么办法来检查sepal_length,sepal_width,petal_length和petal_width是数值变量,同时species是一个分类变量?
我在Google存储空间中存储了一些CSV文件,我想将这些文件读入Google datalab.到目前为止,我不知道该怎么做.我找到了这个,并按照第一个答案,但没有工作和提出
File "<ipython-input-1-5e9607fa3f65>", line 5
%%gcs read --object $data_csv --variable data
^
SyntaxError: invalid syntax
Run Code Online (Sandbox Code Playgroud)
任何帮助将不胜感激.
假设我有这个数据框。
import pandas as pd
data = {"Date": ["2018-08-05", "2018-08-05", "2018-08-05", "2018-08-05", "2018-08-06"],
"Time_End":["2018-08-05 13:50:00", "2018-08-05 14:26:00", "2018-08-05 17:30:00", "2018-08-05 17:10:00", "2018-08-06 11:23:00"],
"Reason":["blah1", "blah2", "blah3", "blah4", "blah5"]
}
df = pd.DataFrame.from_dict(data)
df
Date Time_End Reason
0 2018-08-05 2018-08-05 13:50:00 blah1
1 2018-08-05 2018-08-05 14:26:00 blah2
2 2018-08-05 2018-08-05 17:30:00 blah3
3 2018-08-05 2018-08-05 17:10:00 blah4
4 2018-08-06 2018-08-06 11:23:00 blah5
Run Code Online (Sandbox Code Playgroud)
我只想从“ Time_End”中提取日期到名为“ Birth_date”的新列中。但是,我也想检查时间是否过了17:00。如果是这样,提取的日期将加一成为第二天。下面显示了所需的输出。
Date Birth_date Time_End Reason
0 2018-08-05 2018-08-05 2018-08-05 13:50:00 blah1
1 2018-08-05 2018-08-05 2018-08-05 14:26:00 blah2 …Run Code Online (Sandbox Code Playgroud) 我想知道如何删除表中完全重复的行并只保留一个。例如这张桌子。
到
我读过的大多数线程都已使用id或unique_key在这种情况下我没有使用。
编辑:当我说remove我的意思delete是表中的那些记录时,我又没有 id 来引用以创建条件以保留一条记录。对困惑感到抱歉。
先感谢您。
这可能是与其他线程相同的问题。但是,他们未能解释 fa06 成功提供的 ctid 是什么。所以,我会说我问的是使用相同的词但不同的问题。请删除“标记重复”。谢谢。
python ×5
pandas ×4
csv ×3
julia ×2
d3.js ×1
dataframe ×1
datetime ×1
duplicates ×1
file-io ×1
javascript ×1
postgresql ×1
python-3.x ×1
sql-delete ×1
vega ×1