小编Ang*_*nda的帖子

plot.roc用于pROC包中的multiclass.roc?

我试图绘制多类ROC曲线,但我没有在pROC包中找到任何有效的东西.这是一些开始代码:

data(iris)
library(randomForest)
library(pROC)
set.seed(1000)
# 3-class in response variable
rf = randomForest(Species~., data = iris, ntree = 100)
# predict(.., type = 'prob') returns a probability matrix
predictions <- as.numeric(predict(rf, iris, type = 'response'))
roc.multi <- multiclass.roc(iris$Species, predictions)
auc(roc.multi)
Run Code Online (Sandbox Code Playgroud)

如何绘制各个类的ROC曲线?

r roc auc

8
推荐指数
1
解决办法
5740
查看次数

BASH:根据公共字段名称加入2个CSV文件

我有2个CSV文件,我需要使用BASH加入它们:

file_1.csv columns: 

track_id    
title
song_id 
release 
artist_id   
artist_mbid 
artist_name 
duration    
artist_familiarity  
artist_hotttnesss
year

Sample date in file_1.csv

TRZZZZZ12903D05E3A,Infra Stellar,SOZPUEF12AF72A9F2A,Archives Vol. 2,ARBG8621187FB54842,4279aba0-1bde-40a9-8fb2-c63d165dc554,Delerium,495.22893,0.69652442519,0.498471038842,2001

file_2.csv columns: 

track_id    
sales_date  
sales_count

Sample data in file_2.csv

TRZZZZZ12903D05E3A,2014-06-19,79
Run Code Online (Sandbox Code Playgroud)

文件之间的关系就是这样file_1.track_id = file_2.track_id.

我想创建一个file_3.csv包含以下列的第3个文件:

file_2.track_id,file_2.sales_date,file_2.sales_count,file_1.title,file_1.song_id,file_1.release,file_1.artist_id,file_1.artist_mbid,file_1.artist_name,file_1.duration,file_1.artist_familiarity,file_1.artist_hotttnesss,file_1.year
Run Code Online (Sandbox Code Playgroud)

我尝试了以下方法:

join -t',' -1 N -1 N file_2.csv file_1.csv >> file_3.csv
Run Code Online (Sandbox Code Playgroud)

awk -F, 'NR==FNR{a[$0]=$0;next} ($1 in a){print a[$1]"," > "file_3.csv"}' file_1.csv file_2.csv
Run Code Online (Sandbox Code Playgroud)

虽然file_3.csv创建了gets,但它是一个空文件.关于如何做到这一点的任何想法?

谢谢!

csv bash awk grep join

5
推荐指数
1
解决办法
2948
查看次数

Scala单行从字符串生成MD5哈希

我是Scala的新手,我发现这个有趣的单线程从字符串生成十六进制编码的MD5哈希.我希望有人能帮助我更好地理解这一点.

private def getMd5(inputStr: String): String = {
  val md: MessageDigest = MessageDigest.getInstance("MD5")
  md.digest(inputStr.getBytes()).map(0xFF & _).map { "%02x".format(_) }.foldLeft("") {_ + _}
}
Run Code Online (Sandbox Code Playgroud)

谢谢.

hash md5 scala

5
推荐指数
1
解决办法
3554
查看次数

Bash - 计算列的平均值和频率

我正在运行一个 shell 脚本,该脚本对我的服务执行负载测试。在测试结束时,我得到一个如下所示的文件:

200    2.691
200    2.735
404    1.997
404    2.838
200    1.394
200    1.833
Run Code Online (Sandbox Code Playgroud)

我想计算每个唯一 HTTP 响应代码的最小、最大和平均响应时间。像这样的东西——

http    min    max    mean    count
200    1.394  2.735   2.163    4
404    1.997  2.838   2.418    2
Run Code Online (Sandbox Code Playgroud)

输出源自此命令(如果有帮助):

curl -s -o /dev/null -w "%{http_code}\t%{time_total}\n" $SERVICE_URL

有人可以分享有关如何在 bash 中实现这一目标的指示吗?我查看了http://cacodaemon.de/index.php?id=11的想法,但无法做出任何工作。

谢谢。

bash awk

5
推荐指数
1
解决办法
540
查看次数

使用Scala在Apache Spark中拆分字符串

我有一个数据集,其中包含格式的行(制表符分隔):

Title<\t>Text
Run Code Online (Sandbox Code Playgroud)

现在,对于每个单词Text,我想创建一(Word,Title)对.例如:

ABC      Hello World
Run Code Online (Sandbox Code Playgroud)

给我

(Hello, ABC)
(World, ABC)
Run Code Online (Sandbox Code Playgroud)

使用Scala,我写了以下内容:

val file = sc.textFile("s3n://file.txt")
val title = file.map(line => line.split("\t")(0))
val wordtitle = file.map(line => (line.split("\t")(1).split(" ").map(word => (word, line.split("\t")(0)))))
Run Code Online (Sandbox Code Playgroud)

但这给了我以下输出:

[Lscala.Tuple2;@2204b589
[Lscala.Tuple2;@632a46d1
[Lscala.Tuple2;@6c8f7633
[Lscala.Tuple2;@3e9945f3
[Lscala.Tuple2;@40bf74a0
[Lscala.Tuple2;@5981d595
[Lscala.Tuple2;@5aed571b
[Lscala.Tuple2;@13f1dc40
[Lscala.Tuple2;@6bb2f7fa
[Lscala.Tuple2;@32b67553
[Lscala.Tuple2;@68d0b627
[Lscala.Tuple2;@8493285
Run Code Online (Sandbox Code Playgroud)

我该如何解决这个问题?

进一步阅读

我想要实现的是计算特定的Wordsa中发生的数量.TextTitle

我写的后续代码是:

val wordcountperfile = file.map(line => (line.split("\t")(1).split(" ").flatMap(word => word), line.split("\t")(0))).map(word => (word, 1)).reduceByKey(_ + _)
Run Code Online (Sandbox Code Playgroud)

但它不起作用.请随时提供您的意见.谢谢!

string scala apache-spark

4
推荐指数
1
解决办法
5万
查看次数

标签 统计

awk ×2

bash ×2

scala ×2

apache-spark ×1

auc ×1

csv ×1

grep ×1

hash ×1

join ×1

md5 ×1

r ×1

roc ×1

string ×1