小编dat*_*ess的帖子

如何使用awk将带有标题的新列添加到csv

我在处理 CSV 的 bash 脚本中使用了一些 awk。awk 这样做:

ORIG_FILE="score_model.csv"   
NEW_FILE="updates/score_model.csv"    
awk -v d="2017_01" -F"," 'BEGIN {OFS = ","} {$(NF+1)=d; print}' $ORIG_FILE > $NEW_FILE 
Run Code Online (Sandbox Code Playgroud)

哪个进行此转换:

# before
model_description,      type,    effective_date, end_date
Inc <= 40K,             Retired, 08/05/2016,     07/31/2017
Inc > 40K Age <= 55 V5, Retired, 04/30/2016,     07/31/2017
Inc > 40K Age > 55 V5 , Retired, 04/30/2016,     07/31/2017

# after, bad
model_description,      type,    effective_date, end_date,   2017_01  
Inc <= 40K,             Retired, 08/05/2016,     07/31/2017, 2017_01
Inc > 40K Age <= 55 V5, Retired, 04/30/2016, …
Run Code Online (Sandbox Code Playgroud)

csv bash awk

5
推荐指数
2
解决办法
5405
查看次数

Hive 的隐式连接总是内部连接吗?

Hive的连接文档鼓励使用隐式连接,即

SELECT * 
FROM table1 t1, table2 t2, table3 t3 
WHERE t1.id = t2.id AND t2.id = t3.id AND t1.zipcode = '02535';
Run Code Online (Sandbox Code Playgroud)

这是否相当于

SELECT t1.*, t2.*, t3.*
FROM table1 t1
INNER JOIN table2 t2 ON
  t1.id = t2.id 
INNER JOIN table3 t3 ON
  t2.id = t3.id
WHERE t1.zipcode = '02535'
Run Code Online (Sandbox Code Playgroud)

,或者上面会返回额外的记录?

hadoop hive join hiveql

4
推荐指数
1
解决办法
2949
查看次数

如何从 BigQuery 结果中去除非数字字符

我已经看到有关如何在 BigQuery 中为数字添加逗号的信息,但我得到的是美元金额结果

$15,000
$25,000
$10,000
Run Code Online (Sandbox Code Playgroud)

我想转换成纯数字

15000
25000
10000
Run Code Online (Sandbox Code Playgroud)

我还没有找到任何 BigQuery 函数来进行这样的格式更改。

strip google-bigquery

4
推荐指数
1
解决办法
4993
查看次数

如何在 XGBooost 中使用 early_stopping_rounds 参数

我正在Datacamp Extreme Gradient Boosting with XGBoost 上执行一个教程,我对一个结果有点困惑。

执行以下代码时

# Create your housing DMatrix: 
housing_dmatrix = xgb.DMatrix(data=data, label=y)

# Create the parameter dictionary for each tree: params
params = {"objective":"reg:linear", "max_depth":4}

# Perform cross-validation with early stopping: cv_results
cv_results = xgb.cv(dtrain=housing_dmatrix,params=params,nfold=3, num_boost_round=50,  early_stopping_rounds=10, metrics="rmse", as_pandas=True, seed=123)

# Print cv_results
print(cv_results)

mean_mae = cv_results['test-rmse-mean'].min()
boost_rounds = cv_results['test-rmse-mean'].idxmin()
print("\tRMSE {} for {} rounds".format(mean_mae, boost_rounds))
Run Code Online (Sandbox Code Playgroud)

我得到这个输出:

    test-rmse-mean  test-rmse-std  train-rmse-mean  train-rmse-std
0    142644.104167     705.732300    141861.109375      396.179855
1    104867.638021     109.049658    103035.130209       47.104957
2     79261.453125 …
Run Code Online (Sandbox Code Playgroud)

python-3.x cross-validation xgboost

4
推荐指数
1
解决办法
3341
查看次数

计算 NetworkX 图的断开组件的数量

从随机生成的树开始,我想考虑树的每个节点,并可能以一定的概率删除它p。由于树没有循环,并且任何一对节点之间都有唯一的路径,因此删除节点应该会留下d断开的树,其中d是该节点的度。

我的问题是,一旦我对整个图表执行了此操作,我如何检查有多少个未连接的段?

import networkx as nx
import random as rand

n = 20
p = 0.1

G = nx.random_tree(n)
for i in range(0, n):
    if rand.random() < p:
        G.remove_node(i)

x = G.count_disconnected_components() # is there anything that accomplishes this?
Run Code Online (Sandbox Code Playgroud)

例如,对于此图,G.count_disconnected_components()应返回 3。 具有三个未连接组件的图

python graph-theory networkx

4
推荐指数
1
解决办法
3019
查看次数

使用权重向量设置 networkD3 节点大小

我正在尝试在 R 中使用data.treeandNetworkD3创建文件系统的树表示,其中图形的节点按文件大小加权。

library(data.tree)
library(networkD3)

repo <- Node$new("Repository")
git <- repo$AddChild(".git")
prod <- repo$AddChild("Production")
exp <- repo$AddChild("Experimental")

repo$size <- 866000
git$size <- 661000
prod$size <- 153000
exp$size <- 48000
Run Code Online (Sandbox Code Playgroud)

我可以使用 Get 获得这些大小的向量,这样

sizes <- repo$Get("size")
Run Code Online (Sandbox Code Playgroud)

但是当我尝试将它们放在一起时,我不确定如何在网络可视化步骤中包含此权重信息。尝试做这样的事情......

reponet <- ToDataFrameNetwork(repo,"repo")
net <- forceNetwork(reponet, Nodesize = repo$Get("size"))
Run Code Online (Sandbox Code Playgroud)

无济于事。基本上我正在尝试做 Julia Silge 在这篇很棒的SO 博客文章中所做的事情。有谁知道如何设置这个?

tree r data-visualization networkd3

2
推荐指数
1
解决办法
2031
查看次数