小编dat*_*ess的帖子

如何使用awk将带有标题的新列添加到csv

我在处理 CSV 的 bash 脚本中使用了一些 awk。awk 这样做：

ORIG_FILE="score_model.csv"   
NEW_FILE="updates/score_model.csv"    
awk -v d="2017_01" -F"," 'BEGIN {OFS = ","} {$(NF+1)=d; print}' $ORIG_FILE > $NEW_FILE

Run Code Online (Sandbox Code Playgroud)

哪个进行此转换：

# before
model_description,      type,    effective_date, end_date
Inc <= 40K,             Retired, 08/05/2016,     07/31/2017
Inc > 40K Age <= 55 V5, Retired, 04/30/2016,     07/31/2017
Inc > 40K Age > 55 V5 , Retired, 04/30/2016,     07/31/2017

# after, bad
model_description,      type,    effective_date, end_date,   2017_01  
Inc <= 40K,             Retired, 08/05/2016,     07/31/2017, 2017_01
Inc > 40K Age <= 55 V5, Retired, 04/30/2016, …

Run Code Online (Sandbox Code Playgroud)

csv bash awk

dat*_*ess

lucky-day

5
推荐指数

2
解决办法

5405
查看次数

Hive 的隐式连接总是内部连接吗？

Hive的连接文档鼓励使用隐式连接，即

SELECT * 
FROM table1 t1, table2 t2, table3 t3 
WHERE t1.id = t2.id AND t2.id = t3.id AND t1.zipcode = '02535';

Run Code Online (Sandbox Code Playgroud)

这是否相当于

SELECT t1.*, t2.*, t3.*
FROM table1 t1
INNER JOIN table2 t2 ON
  t1.id = t2.id 
INNER JOIN table3 t3 ON
  t2.id = t3.id
WHERE t1.zipcode = '02535'

Run Code Online (Sandbox Code Playgroud)

，或者上面会返回额外的记录？

hadoop hive join hiveql

dat*_*ess

lucky-day

4
推荐指数

1
解决办法

2949
查看次数

如何从 BigQuery 结果中去除非数字字符

我已经看到有关如何在 BigQuery 中为数字添加逗号的信息，但我得到的是美元金额结果

$15,000
$25,000
$10,000

Run Code Online (Sandbox Code Playgroud)

我想转换成纯数字

15000
25000
10000

Run Code Online (Sandbox Code Playgroud)

我还没有找到任何 BigQuery 函数来进行这样的格式更改。

strip google-bigquery

dat*_*ess

lucky-day

4
推荐指数

1
解决办法

4993
查看次数

如何在 XGBooost 中使用 early_stopping_rounds 参数

我正在Datacamp Extreme Gradient Boosting with XGBoost 上执行一个教程，我对一个结果有点困惑。

执行以下代码时

# Create your housing DMatrix: 
housing_dmatrix = xgb.DMatrix(data=data, label=y)

# Create the parameter dictionary for each tree: params
params = {"objective":"reg:linear", "max_depth":4}

# Perform cross-validation with early stopping: cv_results
cv_results = xgb.cv(dtrain=housing_dmatrix,params=params,nfold=3, num_boost_round=50,  early_stopping_rounds=10, metrics="rmse", as_pandas=True, seed=123)

# Print cv_results
print(cv_results)

mean_mae = cv_results['test-rmse-mean'].min()
boost_rounds = cv_results['test-rmse-mean'].idxmin()
print("\tRMSE {} for {} rounds".format(mean_mae, boost_rounds))

Run Code Online (Sandbox Code Playgroud)

我得到这个输出：

    test-rmse-mean  test-rmse-std  train-rmse-mean  train-rmse-std
0    142644.104167     705.732300    141861.109375      396.179855
1    104867.638021     109.049658    103035.130209       47.104957
2     79261.453125 …

Run Code Online (Sandbox Code Playgroud)

python-3.x cross-validation xgboost

Thi*_* K.

2017 12-19

4
推荐指数

1
解决办法

3341
查看次数

计算 NetworkX 图的断开组件的数量

从随机生成的树开始，我想考虑树的每个节点，并可能以一定的概率删除它p。由于树没有循环，并且任何一对节点之间都有唯一的路径，因此删除节点应该会留下d断开的树，其中d是该节点的度。

我的问题是，一旦我对整个图表执行了此操作，我如何检查有多少个未连接的段？

import networkx as nx
import random as rand

n = 20
p = 0.1

G = nx.random_tree(n)
for i in range(0, n):
    if rand.random() < p:
        G.remove_node(i)

x = G.count_disconnected_components() # is there anything that accomplishes this?

Run Code Online (Sandbox Code Playgroud)

例如，对于此图，G.count_disconnected_components()应返回 3。

python graph-theory networkx

dat*_*ess

lucky-day

4
推荐指数

1
解决办法

3019
查看次数

使用权重向量设置 networkD3 节点大小

我正在尝试在 R 中使用data.treeandNetworkD3创建文件系统的树表示，其中图形的节点按文件大小加权。

library(data.tree)
library(networkD3)

repo <- Node$new("Repository")
git <- repo$AddChild(".git")
prod <- repo$AddChild("Production")
exp <- repo$AddChild("Experimental")

repo$size <- 866000
git$size <- 661000
prod$size <- 153000
exp$size <- 48000

Run Code Online (Sandbox Code Playgroud)

我可以使用 Get 获得这些大小的向量，这样

sizes <- repo$Get("size")

Run Code Online (Sandbox Code Playgroud)

但是当我尝试将它们放在一起时，我不确定如何在网络可视化步骤中包含此权重信息。尝试做这样的事情......

reponet <- ToDataFrameNetwork(repo,"repo")
net <- forceNetwork(reponet, Nodesize = repo$Get("size"))

Run Code Online (Sandbox Code Playgroud)

无济于事。基本上我正在尝试做 Julia Silge 在这篇很棒的SO 博客文章中所做的事情。有谁知道如何设置这个？

tree r data-visualization networkd3

dat*_*ess

2017 10-31

2
推荐指数

1
解决办法

2031
查看次数

标签统计

awk ×1

bash ×1

cross-validation ×1

csv ×1

data-visualization ×1

google-bigquery ×1

graph-theory ×1

hadoop ×1

hive ×1

hiveql ×1

join ×1

networkd3 ×1

networkx ×1

python ×1

python-3.x ×1

r ×1

strip ×1

tree ×1

xgboost ×1

如何使用awk将带有标题的新列添加到csv

Hive 的隐式连接总是内部连接吗？

如何从 BigQuery 结果中去除非数字字符

如何在 XGBooost 中使用 early_stopping_rounds 参数

计算 NetworkX 图的断开组件的数量

使用权重向量设置 networkD3 节点大小

标签 统计

小编dat_ess的帖子

标签统计