我试图绘制多类ROC曲线,但我没有在pROC包中找到任何有效的东西.这是一些开始代码:
data(iris)
library(randomForest)
library(pROC)
set.seed(1000)
# 3-class in response variable
rf = randomForest(Species~., data = iris, ntree = 100)
# predict(.., type = 'prob') returns a probability matrix
predictions <- as.numeric(predict(rf, iris, type = 'response'))
roc.multi <- multiclass.roc(iris$Species, predictions)
auc(roc.multi)
Run Code Online (Sandbox Code Playgroud)
如何绘制各个类的ROC曲线?
我有2个CSV文件,我需要使用BASH加入它们:
file_1.csv columns:
track_id
title
song_id
release
artist_id
artist_mbid
artist_name
duration
artist_familiarity
artist_hotttnesss
year
Sample date in file_1.csv
TRZZZZZ12903D05E3A,Infra Stellar,SOZPUEF12AF72A9F2A,Archives Vol. 2,ARBG8621187FB54842,4279aba0-1bde-40a9-8fb2-c63d165dc554,Delerium,495.22893,0.69652442519,0.498471038842,2001
file_2.csv columns:
track_id
sales_date
sales_count
Sample data in file_2.csv
TRZZZZZ12903D05E3A,2014-06-19,79
Run Code Online (Sandbox Code Playgroud)
文件之间的关系就是这样file_1.track_id = file_2.track_id.
我想创建一个file_3.csv包含以下列的第3个文件:
file_2.track_id,file_2.sales_date,file_2.sales_count,file_1.title,file_1.song_id,file_1.release,file_1.artist_id,file_1.artist_mbid,file_1.artist_name,file_1.duration,file_1.artist_familiarity,file_1.artist_hotttnesss,file_1.year
Run Code Online (Sandbox Code Playgroud)
我尝试了以下方法:
join -t',' -1 N -1 N file_2.csv file_1.csv >> file_3.csv
Run Code Online (Sandbox Code Playgroud)
和
awk -F, 'NR==FNR{a[$0]=$0;next} ($1 in a){print a[$1]"," > "file_3.csv"}' file_1.csv file_2.csv
Run Code Online (Sandbox Code Playgroud)
虽然file_3.csv创建了gets,但它是一个空文件.关于如何做到这一点的任何想法?
谢谢!
我是Scala的新手,我发现这个有趣的单线程从字符串生成十六进制编码的MD5哈希.我希望有人能帮助我更好地理解这一点.
private def getMd5(inputStr: String): String = {
val md: MessageDigest = MessageDigest.getInstance("MD5")
md.digest(inputStr.getBytes()).map(0xFF & _).map { "%02x".format(_) }.foldLeft("") {_ + _}
}
Run Code Online (Sandbox Code Playgroud)
谢谢.
我正在运行一个 shell 脚本,该脚本对我的服务执行负载测试。在测试结束时,我得到一个如下所示的文件:
200 2.691
200 2.735
404 1.997
404 2.838
200 1.394
200 1.833
Run Code Online (Sandbox Code Playgroud)
我想计算每个唯一 HTTP 响应代码的最小、最大和平均响应时间。像这样的东西——
http min max mean count
200 1.394 2.735 2.163 4
404 1.997 2.838 2.418 2
Run Code Online (Sandbox Code Playgroud)
输出源自此命令(如果有帮助):
curl -s -o /dev/null -w "%{http_code}\t%{time_total}\n" $SERVICE_URL
有人可以分享有关如何在 bash 中实现这一目标的指示吗?我查看了http://cacodaemon.de/index.php?id=11的想法,但无法做出任何工作。
谢谢。
我有一个数据集,其中包含格式的行(制表符分隔):
Title<\t>Text
Run Code Online (Sandbox Code Playgroud)
现在,对于每个单词Text,我想创建一(Word,Title)对.例如:
ABC Hello World
Run Code Online (Sandbox Code Playgroud)
给我
(Hello, ABC)
(World, ABC)
Run Code Online (Sandbox Code Playgroud)
使用Scala,我写了以下内容:
val file = sc.textFile("s3n://file.txt")
val title = file.map(line => line.split("\t")(0))
val wordtitle = file.map(line => (line.split("\t")(1).split(" ").map(word => (word, line.split("\t")(0)))))
Run Code Online (Sandbox Code Playgroud)
但这给了我以下输出:
[Lscala.Tuple2;@2204b589
[Lscala.Tuple2;@632a46d1
[Lscala.Tuple2;@6c8f7633
[Lscala.Tuple2;@3e9945f3
[Lscala.Tuple2;@40bf74a0
[Lscala.Tuple2;@5981d595
[Lscala.Tuple2;@5aed571b
[Lscala.Tuple2;@13f1dc40
[Lscala.Tuple2;@6bb2f7fa
[Lscala.Tuple2;@32b67553
[Lscala.Tuple2;@68d0b627
[Lscala.Tuple2;@8493285
Run Code Online (Sandbox Code Playgroud)
我该如何解决这个问题?
进一步阅读
我想要实现的是计算特定的Wordsa中发生的数量.TextTitle
我写的后续代码是:
val wordcountperfile = file.map(line => (line.split("\t")(1).split(" ").flatMap(word => word), line.split("\t")(0))).map(word => (word, 1)).reduceByKey(_ + _)
Run Code Online (Sandbox Code Playgroud)
但它不起作用.请随时提供您的意见.谢谢!