小编use*_*653的帖子

将Pandas DataFrame转换为JSON格式

我有一个DataFrame带有两列的Pandas - 一个带有文件名,一个带有生成它的小时:

 File       Hour
  F1         1
  F1         2
  F2         1
  F3         1
Run Code Online (Sandbox Code Playgroud)

我试图将其转换为具有以下格式的JSON文件:

{"File":"F1","Hour":"1"} 
{"File":"F1","Hour":"2"}
{"File":"F2","Hour":"1"}
{"File":"F3","Hour":"1"}
Run Code Online (Sandbox Code Playgroud)

当我使用该命令时DataFrame.to_json(orient = "records"),我得到以下格式的记录:

[{"File":"F1","Hour":"1"},
 {"File":"F1","Hour":"2"},
 {"File":"F2","Hour":"1"},
 {"File":"F3","Hour":"1"}]
Run Code Online (Sandbox Code Playgroud)

我只是想知道是否有一个选项可以获得所需格式的JSON文件.任何帮助,将不胜感激.

json dataframe pandas

26
推荐指数
5
解决办法
6万
查看次数

绘制饼图和熊猫数据框表

我必须使用matplotlib并排绘制饼图和表格.

为绘制饼图,我使用以下代码:

import matplotlib.pyplot as plt
df1.EventLogs.value_counts(sort=False).plot.pie()
plt.show()
Run Code Online (Sandbox Code Playgroud)

为了绘制表格,我使用以下代码:

%%chart table --fields MachineName --data df_result2
Run Code Online (Sandbox Code Playgroud)

df_result2是一个包含MachineName列表的表.

不确定我们是否可以并排放置饼图和表格.任何帮助,将不胜感激.

python matplotlib pandas

19
推荐指数
2
解决办法
4万
查看次数

使用Google Big Query进行弹性搜索

我在弹性搜索引擎中加载了事件日志,并使用Kibana对其进行了可视化处理。我的事件日志实际上存储在Google Big Query表中。目前,我正在将json文件转储到Google存储桶中,并将其下载到本地驱动器。然后使用logstash,将json文件从本地驱动器移至弹性搜索引擎。

现在,我正在尝试通过在Google大查询和弹性搜索之间建立联系来实现流程自动化。根据我的阅读,我了解到有一个输出连接器,可将数据从弹性搜索发送到Google大查询,但反之则不然。只是想知道我是否应该将json文件上传到kubernete集群,然后在集群和Elastic搜索引擎之间建立连接。

在这方面的任何帮助将不胜感激。

elasticsearch google-bigquery

6
推荐指数
2
解决办法
2812
查看次数

在谷歌大查询中将表从一个数据集复制到另一个数据集

我打算在同一个项目中将一组表从一个数据集复制到另一个数据集。我在 Ipython notebook 中执行代码。

我使用以下代码获取要在变量“value”中复制的表名列表:

list = bq.DataSet('test:TestDataset')

for x in list.tables():
   if(re.match('table1(.*)',x.name.table_id)):
     value = 'test:TestDataset.'+ x.name.table_id
Run Code Online (Sandbox Code Playgroud)

然后我尝试使用“bq cp”命令将表从一个数据集复制到另一个数据集。但是我无法在笔记本中执行 bq 命令。

!bq cp $value proj1:test1.table1_20162020
Run Code Online (Sandbox Code Playgroud)

笔记:

我尝试使用 bigquery 命令来检查是否有与之关联的复制命令,但找不到任何命令。

copy google-bigquery

5
推荐指数
3
解决办法
2万
查看次数

使用C#的Task Scheduler中的常规设置

我想将Task Scheduler中的“配置为”设置为“ Windows 7”。

当前的C#代码:

 using (TaskService ts = new TaskService())
 {
    TaskDefinition td = ts.NewTask();
    TimeTrigger trigger = new TimeTrigger();
    var startTime = TimeSpan.Parse(section1["ScheduledTime"]);
    trigger.StartBoundary = DateTime.Today + startTime;
    trigger.Repetition.Interval = TimeSpan.FromDays(1);
    td.Triggers.Add(trigger);  
    td.Actions.Add(new ExecAction(@"Data.exe", argument, null));
    var foldername = ts.GetFolder(@"\Bigdata");
    Console.WriteLine(foldername.Path);                                
    foldername.RegisterTaskDefinition(section1["JobName"], td, TaskCreation.CreateOrUpdate, "service@geotab.local", "traincloudCubel!ne");
  }
Run Code Online (Sandbox Code Playgroud)

任何帮助,将不胜感激 !!

在此处输入图片说明

c# taskscheduler

4
推荐指数
1
解决办法
934
查看次数

根据DateTime字段对熊猫数据框进行排序

我正在尝试根据数据类型为datetime64 [ns]的DateTime字段对数据框进行排序。

我的数据框如下所示:

Name    DateTime1
P38     NaT
P62     2016-07-13 16:03:32.771
P59     2016-06-23 14:23:42.461
P07     NaT
P16     2016-06-23 14:02:06.237
P06     2016-07-13 16:03:52.570
P106    2016-07-13 19:56:22.676
Run Code Online (Sandbox Code Playgroud)

当我使用DateTime字段对其进行排序时,

df.sort_values(by='DateTime1',ascending=True)
Run Code Online (Sandbox Code Playgroud)

我没有得到想要的结果。

输出:

Name    DateTime1
P16     2016-06-23 14:02:06.237
P59     2016-06-23 14:23:42.461
P62     2016-07-13 16:03:32.771
P06     2016-07-13 16:03:52.570
P106    2016-07-13 19:56:22.676
P38     NaT
P07     NaT
Run Code Online (Sandbox Code Playgroud)

sorting dataframe pandas

4
推荐指数
1
解决办法
1万
查看次数

GridSearchCV 错误“数组中的索引过多”

我正在使用监督学习算法随机森林分类器来训练数据。

    clf = RandomForestClassifier(n_estimators=50, n_jobs=3, random_state=42)
Run Code Online (Sandbox Code Playgroud)

网格中的不同参数是:

    param_grid = { 
    'n_estimators': [200, 700],
    'max_features': ['auto', 'sqrt', 'log2'],
    'max_depth': [5,10],
    'min_samples_split': [5,10]
    }
Run Code Online (Sandbox Code Playgroud)

分类器“clf”和参数网格“param_grid”在 GridSearhCV 方法中传递。

    clf_rfc = GridSearchCV(estimator=clf, param_grid=param_grid)
Run Code Online (Sandbox Code Playgroud)

当我使用标签拟合特征时

    clf_rfc.fit(X_train, y_train)
Run Code Online (Sandbox Code Playgroud)

我收到错误“数组中的索引太多”。X_train 的形状是 (204,3),y_train 的形状是 (204,1)。

尝试使用选项 clf_rfc.fit(X_train.values, y_train.values) 但无法摆脱错误。

任何建议,将不胜感激 !!

random-forest scikit-learn grid-search

4
推荐指数
1
解决办法
3941
查看次数

查询错误:无法识别谓词"组".失败的规则:子查询源中的"标识符"

我在hive中尝试了以下查询.我收到错误"无法识别谓词'组'.失败的规则:子查询源中的'标识符'".

根据我的理解,我不确定该错误在下面的查询中意味着什么.任何建议都会很棒!!

select val1, val2, count(distinct(val3)) from (
    select val1, val2, val3
    from tab1
    where (val1 in ('A', 'B') 
    or val2 in ('C', 'D')))
group by val1, val2
Run Code Online (Sandbox Code Playgroud)

sql hive

4
推荐指数
1
解决办法
9679
查看次数

根据谷歌表格中的日期颜色代码交替行

我想根据谷歌表格中的备用日期对行进行阴影处理。例如,第一行始终没有阴影,如下图所示,第 2 行和第 3 行中有一个新日期“2021-03-19”,因此需要对它们进行阴影处理。之后,下一个日期,2021-01-01 就不需要了,依此类推。

我最近开始使用谷歌表格,不确定是否可以使用任何内置命令来实现。

任何建议,将不胜感激。

在此输入图像描述

unique conditional-formatting match google-sheets google-sheets-formula

3
推荐指数
1
解决办法
1520
查看次数

获取下划线之前的字符

我有一个以下格式的 pandas 数据框

  name
  BC_new-0
  BC_new-1
  BC_new-2
Run Code Online (Sandbox Code Playgroud)

想要提取“_”下方的所有内容并将其附加到新列

  df['value'] = str(df['name']).split("_")[0]
Run Code Online (Sandbox Code Playgroud)

但我得到以下结果

  value
  0 BC
  0 BC
  0 BC
Run Code Online (Sandbox Code Playgroud)

关于这个“0”如何不能出现在输出中的任何建议。任何线索将不胜感激。

string split pandas

3
推荐指数
1
解决办法
2359
查看次数