我有一个DataFrame带有两列的Pandas - 一个带有文件名,一个带有生成它的小时:
File Hour
F1 1
F1 2
F2 1
F3 1
Run Code Online (Sandbox Code Playgroud)
我试图将其转换为具有以下格式的JSON文件:
{"File":"F1","Hour":"1"}
{"File":"F1","Hour":"2"}
{"File":"F2","Hour":"1"}
{"File":"F3","Hour":"1"}
Run Code Online (Sandbox Code Playgroud)
当我使用该命令时DataFrame.to_json(orient = "records"),我得到以下格式的记录:
[{"File":"F1","Hour":"1"},
{"File":"F1","Hour":"2"},
{"File":"F2","Hour":"1"},
{"File":"F3","Hour":"1"}]
Run Code Online (Sandbox Code Playgroud)
我只是想知道是否有一个选项可以获得所需格式的JSON文件.任何帮助,将不胜感激.
我必须使用matplotlib并排绘制饼图和表格.
为绘制饼图,我使用以下代码:
import matplotlib.pyplot as plt
df1.EventLogs.value_counts(sort=False).plot.pie()
plt.show()
Run Code Online (Sandbox Code Playgroud)
为了绘制表格,我使用以下代码:
%%chart table --fields MachineName --data df_result2
Run Code Online (Sandbox Code Playgroud)
df_result2是一个包含MachineName列表的表.
不确定我们是否可以并排放置饼图和表格.任何帮助,将不胜感激.
我在弹性搜索引擎中加载了事件日志,并使用Kibana对其进行了可视化处理。我的事件日志实际上存储在Google Big Query表中。目前,我正在将json文件转储到Google存储桶中,并将其下载到本地驱动器。然后使用logstash,将json文件从本地驱动器移至弹性搜索引擎。
现在,我正在尝试通过在Google大查询和弹性搜索之间建立联系来实现流程自动化。根据我的阅读,我了解到有一个输出连接器,可将数据从弹性搜索发送到Google大查询,但反之则不然。只是想知道我是否应该将json文件上传到kubernete集群,然后在集群和Elastic搜索引擎之间建立连接。
在这方面的任何帮助将不胜感激。
我打算在同一个项目中将一组表从一个数据集复制到另一个数据集。我在 Ipython notebook 中执行代码。
我使用以下代码获取要在变量“value”中复制的表名列表:
list = bq.DataSet('test:TestDataset')
for x in list.tables():
if(re.match('table1(.*)',x.name.table_id)):
value = 'test:TestDataset.'+ x.name.table_id
Run Code Online (Sandbox Code Playgroud)
然后我尝试使用“bq cp”命令将表从一个数据集复制到另一个数据集。但是我无法在笔记本中执行 bq 命令。
!bq cp $value proj1:test1.table1_20162020
Run Code Online (Sandbox Code Playgroud)
笔记:
我尝试使用 bigquery 命令来检查是否有与之关联的复制命令,但找不到任何命令。
我想将Task Scheduler中的“配置为”设置为“ Windows 7”。
当前的C#代码:
using (TaskService ts = new TaskService())
{
TaskDefinition td = ts.NewTask();
TimeTrigger trigger = new TimeTrigger();
var startTime = TimeSpan.Parse(section1["ScheduledTime"]);
trigger.StartBoundary = DateTime.Today + startTime;
trigger.Repetition.Interval = TimeSpan.FromDays(1);
td.Triggers.Add(trigger);
td.Actions.Add(new ExecAction(@"Data.exe", argument, null));
var foldername = ts.GetFolder(@"\Bigdata");
Console.WriteLine(foldername.Path);
foldername.RegisterTaskDefinition(section1["JobName"], td, TaskCreation.CreateOrUpdate, "service@geotab.local", "traincloudCubel!ne");
}
Run Code Online (Sandbox Code Playgroud)
任何帮助,将不胜感激 !!
我正在尝试根据数据类型为datetime64 [ns]的DateTime字段对数据框进行排序。
我的数据框如下所示:
Name DateTime1
P38 NaT
P62 2016-07-13 16:03:32.771
P59 2016-06-23 14:23:42.461
P07 NaT
P16 2016-06-23 14:02:06.237
P06 2016-07-13 16:03:52.570
P106 2016-07-13 19:56:22.676
Run Code Online (Sandbox Code Playgroud)
当我使用DateTime字段对其进行排序时,
df.sort_values(by='DateTime1',ascending=True)
Run Code Online (Sandbox Code Playgroud)
我没有得到想要的结果。
输出:
Name DateTime1
P16 2016-06-23 14:02:06.237
P59 2016-06-23 14:23:42.461
P62 2016-07-13 16:03:32.771
P06 2016-07-13 16:03:52.570
P106 2016-07-13 19:56:22.676
P38 NaT
P07 NaT
Run Code Online (Sandbox Code Playgroud) 我正在使用监督学习算法随机森林分类器来训练数据。
clf = RandomForestClassifier(n_estimators=50, n_jobs=3, random_state=42)
Run Code Online (Sandbox Code Playgroud)
网格中的不同参数是:
param_grid = {
'n_estimators': [200, 700],
'max_features': ['auto', 'sqrt', 'log2'],
'max_depth': [5,10],
'min_samples_split': [5,10]
}
Run Code Online (Sandbox Code Playgroud)
分类器“clf”和参数网格“param_grid”在 GridSearhCV 方法中传递。
clf_rfc = GridSearchCV(estimator=clf, param_grid=param_grid)
Run Code Online (Sandbox Code Playgroud)
当我使用标签拟合特征时
clf_rfc.fit(X_train, y_train)
Run Code Online (Sandbox Code Playgroud)
我收到错误“数组中的索引太多”。X_train 的形状是 (204,3),y_train 的形状是 (204,1)。
尝试使用选项 clf_rfc.fit(X_train.values, y_train.values) 但无法摆脱错误。
任何建议,将不胜感激 !!
我在hive中尝试了以下查询.我收到错误"无法识别谓词'组'.失败的规则:子查询源中的'标识符'".
根据我的理解,我不确定该错误在下面的查询中意味着什么.任何建议都会很棒!!
select val1, val2, count(distinct(val3)) from (
select val1, val2, val3
from tab1
where (val1 in ('A', 'B')
or val2 in ('C', 'D')))
group by val1, val2
Run Code Online (Sandbox Code Playgroud) 我想根据谷歌表格中的备用日期对行进行阴影处理。例如,第一行始终没有阴影,如下图所示,第 2 行和第 3 行中有一个新日期“2021-03-19”,因此需要对它们进行阴影处理。之后,下一个日期,2021-01-01 就不需要了,依此类推。
我最近开始使用谷歌表格,不确定是否可以使用任何内置命令来实现。
任何建议,将不胜感激。
unique conditional-formatting match google-sheets google-sheets-formula
我有一个以下格式的 pandas 数据框
name
BC_new-0
BC_new-1
BC_new-2
Run Code Online (Sandbox Code Playgroud)
想要提取“_”下方的所有内容并将其附加到新列
df['value'] = str(df['name']).split("_")[0]
Run Code Online (Sandbox Code Playgroud)
但我得到以下结果
value
0 BC
0 BC
0 BC
Run Code Online (Sandbox Code Playgroud)
关于这个“0”如何不能出现在输出中的任何建议。任何线索将不胜感激。