小编Ang*_*nda的帖子

plot.roc用于pROC包中的multiclass.roc？

我试图绘制多类ROC曲线,但我没有在pROC包中找到任何有效的东西.这是一些开始代码:

data(iris)
library(randomForest)
library(pROC)
set.seed(1000)
# 3-class in response variable
rf = randomForest(Species~., data = iris, ntree = 100)
# predict(.., type = 'prob') returns a probability matrix
predictions <- as.numeric(predict(rf, iris, type = 'response'))
roc.multi <- multiclass.roc(iris$Species, predictions)
auc(roc.multi)

Run Code Online (Sandbox Code Playgroud)

如何绘制各个类的ROC曲线？

r roc auc

Ang*_*nda

lucky-day

8
推荐指数

1
解决办法

5740
查看次数

BASH:根据公共字段名称加入2个CSV文件

我有2个CSV文件,我需要使用BASH加入它们:

file_1.csv columns: 

track_id    
title
song_id 
release 
artist_id   
artist_mbid 
artist_name 
duration    
artist_familiarity  
artist_hotttnesss
year

Sample date in file_1.csv

TRZZZZZ12903D05E3A,Infra Stellar,SOZPUEF12AF72A9F2A,Archives Vol. 2,ARBG8621187FB54842,4279aba0-1bde-40a9-8fb2-c63d165dc554,Delerium,495.22893,0.69652442519,0.498471038842,2001

file_2.csv columns: 

track_id    
sales_date  
sales_count

Sample data in file_2.csv

TRZZZZZ12903D05E3A,2014-06-19,79

Run Code Online (Sandbox Code Playgroud)

文件之间的关系就是这样file_1.track_id = file_2.track_id.

我想创建一个file_3.csv包含以下列的第3个文件:

file_2.track_id,file_2.sales_date,file_2.sales_count,file_1.title,file_1.song_id,file_1.release,file_1.artist_id,file_1.artist_mbid,file_1.artist_name,file_1.duration,file_1.artist_familiarity,file_1.artist_hotttnesss,file_1.year

Run Code Online (Sandbox Code Playgroud)

我尝试了以下方法:

join -t',' -1 N -1 N file_2.csv file_1.csv >> file_3.csv

Run Code Online (Sandbox Code Playgroud)

和

awk -F, 'NR==FNR{a[$0]=$0;next} ($1 in a){print a[$1]"," > "file_3.csv"}' file_1.csv file_2.csv

Run Code Online (Sandbox Code Playgroud)

虽然file_3.csv创建了gets,但它是一个空文件.关于如何做到这一点的任何想法？

谢谢!

csv bash awk grep join

Ang*_*nda

2015 02-27

5
推荐指数

1
解决办法

2948
查看次数

Scala单行从字符串生成MD5哈希

我是Scala的新手,我发现这个有趣的单线程从字符串生成十六进制编码的MD5哈希.我希望有人能帮助我更好地理解这一点.

private def getMd5(inputStr: String): String = {
  val md: MessageDigest = MessageDigest.getInstance("MD5")
  md.digest(inputStr.getBytes()).map(0xFF & _).map { "%02x".format(_) }.foldLeft("") {_ + _}
}

Run Code Online (Sandbox Code Playgroud)

谢谢.

hash md5 scala

Ang*_*nda

2016 08-10

5
推荐指数

1
解决办法

3554
查看次数

Bash - 计算列的平均值和频率

我正在运行一个 shell 脚本，该脚本对我的服务执行负载测试。在测试结束时，我得到一个如下所示的文件：

200    2.691
200    2.735
404    1.997
404    2.838
200    1.394
200    1.833

Run Code Online (Sandbox Code Playgroud)

我想计算每个唯一 HTTP 响应代码的最小、最大和平均响应时间。像这样的东西——

http    min    max    mean    count
200    1.394  2.735   2.163    4
404    1.997  2.838   2.418    2

Run Code Online (Sandbox Code Playgroud)

输出源自此命令（如果有帮助）：

curl -s -o /dev/null -w "%{http_code}\t%{time_total}\n" $SERVICE_URL

有人可以分享有关如何在 bash 中实现这一目标的指示吗？我查看了http://cacodaemon.de/index.php?id=11的想法，但无法做出任何工作。

谢谢。

bash awk

Ang*_*nda

lucky-day

5
推荐指数

1
解决办法

540
查看次数

使用Scala在Apache Spark中拆分字符串

我有一个数据集,其中包含格式的行(制表符分隔):

Title<\t>Text

Run Code Online (Sandbox Code Playgroud)

现在,对于每个单词Text,我想创建一(Word,Title)对.例如:

ABC      Hello World

Run Code Online (Sandbox Code Playgroud)

给我

(Hello, ABC)
(World, ABC)

Run Code Online (Sandbox Code Playgroud)

使用Scala,我写了以下内容:

val file = sc.textFile("s3n://file.txt")
val title = file.map(line => line.split("\t")(0))
val wordtitle = file.map(line => (line.split("\t")(1).split(" ").map(word => (word, line.split("\t")(0)))))

Run Code Online (Sandbox Code Playgroud)

但这给了我以下输出:

[Lscala.Tuple2;@2204b589
[Lscala.Tuple2;@632a46d1
[Lscala.Tuple2;@6c8f7633
[Lscala.Tuple2;@3e9945f3
[Lscala.Tuple2;@40bf74a0
[Lscala.Tuple2;@5981d595
[Lscala.Tuple2;@5aed571b
[Lscala.Tuple2;@13f1dc40
[Lscala.Tuple2;@6bb2f7fa
[Lscala.Tuple2;@32b67553
[Lscala.Tuple2;@68d0b627
[Lscala.Tuple2;@8493285

Run Code Online (Sandbox Code Playgroud)

我该如何解决这个问题？

进一步阅读

我想要实现的是计算特定的Wordsa中发生的数量.TextTitle

我写的后续代码是:

val wordcountperfile = file.map(line => (line.split("\t")(1).split(" ").flatMap(word => word), line.split("\t")(0))).map(word => (word, 1)).reduceByKey(_ + _)

Run Code Online (Sandbox Code Playgroud)

但它不起作用.请随时提供您的意见.谢谢!

string scala apache-spark

Ang*_*nda

2016 11-02

4
推荐指数

1
解决办法

5万
查看次数