(1)我必须安装一个python包(HTSeq),但我没有root权限.
该软件包需要python 2.4或最新版本.我们的集群上有python 2.3.
因此我在我的一个本地目录上安装了python 2.7
./configure --prefix=/home/amit/tools/localpython
make
make install
Run Code Online (Sandbox Code Playgroud)
(2)该软件包还需要numpy:所以我也使用以下方法将它安装在我的本地目录中:
/home/amit/tools/localpython/bin/python2.7 setup.py install --home=/home/amit/tools/localnumpy
Run Code Online (Sandbox Code Playgroud)
并做了
>>> sys.path.append("/home/amit/tools/localnumpy/lib/")
Run Code Online (Sandbox Code Playgroud)
(3)我下载了HTSeq的tar文件(我想下载)并运行
/home/amit/tools/localpython/bin/python2.7 setup.py install --home=/home/amit/tools/localhtseq
Run Code Online (Sandbox Code Playgroud)
它抛出以下错误:
Could not import 'setuptools',
falling back to 'distutils'.
Setup script for HTSeq: Failed to import 'numpy'.
Please install numpy and then try again to install HTSeq.
Run Code Online (Sandbox Code Playgroud)
请告诉我如何克服它的一些提示
提前致谢
我刚刚开始使用 Spark 结构化流媒体,所以只是尝试一下。在汇总我的数据时;我无法将其写入 csv 文件。我尝试了以下不同的组合,但尚未实现写入操作。
我的样本数据是
colum,values
A,12
A,233
B,232
A,67
B,5
A,89
A,100
Run Code Online (Sandbox Code Playgroud)
作为流数据帧读取
userSchema = StructType([
StructField("colum", StringType()),
StructField("values", IntegerType())
])
line2 = spark \
.readStream \
.format('csv')\
.schema(userSchema)\
.csv("/data/location")
Run Code Online (Sandbox Code Playgroud)
我正在做以下聚合计算
save=line2.groupBy("colum").count()
Run Code Online (Sandbox Code Playgroud)
预期输出是
+-----+-----+
|colum|count|
+-----+-----+
|B |2 |
|A |5 |
|colum|1 |
+-----+-----+
Run Code Online (Sandbox Code Playgroud)
save.writeStream.format("csv").queryName("a").outputMode("append").option("path", "/xyz/saveloc").option("checkpointLocation", "/xyz/chkptloc").start()
Run Code Online (Sandbox Code Playgroud)
错误:当无水印的流式 DataFrame/DataSet 上存在流式聚合时,不支持追加输出模式;;
备注:由于数据中没有时间戳,因此无法添加水印。
save.writeStream.format("csv").queryName("a").outputMode("complete").option("path", "/xyz/saveloc").option("checkpointLocation", "/xyz/chkptloc").start()
Run Code Online (Sandbox Code Playgroud)
错误::org.apache.spark.sql.AnalysisException:数据源csv不支持完整输出模式;
save.writeStream.format("csv").queryName("a").outputMode("update").option("path", "/xyz/saveloc").option("checkpointLocation", "/xyz/chkptloc").start()
Run Code Online (Sandbox Code Playgroud)
错误:org.apache.spark.sql.AnalysisException:数据源csv不支持更新输出模式;
save.writeStream.format("parquet").queryName("a").outputMode("update").option("path", "/xyz/saveloc").option("checkpointLocation", "/xyz/chkptloc"").start()
Run Code Online (Sandbox Code Playgroud)
错误:org.apache.spark.sql.AnalysisException:数据源镶木地板不支持更新输出模式;
save.writeStream.format("console").queryName("a").outputMode("complete").option("path", "/xyz/saveloc").option("checkpointLocation", "/xyz/chkptloc"").start()
Run Code Online (Sandbox Code Playgroud)
注释:该位置没有生成输出。
save.writeStream.format("memory").queryName("a").outputMode("complete").option("path", "/xyz/saveloc").option("checkpointLocation", "/xyz/chkptloc"").start()
Run Code Online (Sandbox Code Playgroud)
评论:没有生成输出。 …
我正在运行 R 脚本,但遇到错误:
Rscript 示例.R "a,b,c"
我正在运行上面的代码,其中 a、b、c 是作为参数传递的字符向量的元素。如果我传递数值(例如 1,5,6),上面的代码可以正常工作
Code is :
library("optparse")
library("tldutils") # eval_string
# install.packages("tldutils", repos="http://R-Forge.R-project.org")
option_list <- list(
make_option(c("-c", "--count"), type="character", default="5",
help='Vector of numbers separated by commas and surrounded by ""',
metavar="number")
)
args <- parse_args(OptionParser(option_list = option_list))
print(args$c)
eval_string(sprintf("foo = c(%s)", args$c))
print(foo)
Run Code Online (Sandbox Code Playgroud)
错误是:
Error in eval(expr, envir, enclos) : object 'a' not found
Calls: eval_string -> eval.parent -> eval -> eval
Execution halted
Run Code Online (Sandbox Code Playgroud)
请帮助我,我需要在代码中编辑哪里?
我可以在我的数据集上使用R包"e1071"运行svm,但我无法使用任何两个预测变量绘制图形.即使经过Google搜索,我也无法找到解决方案.专家请帮我解决这个问题:
我有一个包含以下属性的数据集:
> dim(fulldata)
[1] 153 2915
> str(fulldata)
'data.frame': 153 obs. of 2915 variables:
$ label : Factor w/ 2 levels "1","2": 1 1 1 1 1 1 1 1 1 1 ...
$ V12 : num 1.372 -1.541 0.201 1.06 1.815 ...
$ V14 : num 0.052 -1.442 1.022 -0.35 0.192 ...
$ V17 : num 0.885 -2.569 0.326 1.574 1.394 ...
$ V37 : num 0.356 2.884 -0.452 0.067 0.282 ...
$ V51 : num -0.018 -1.71 …Run Code Online (Sandbox Code Playgroud) 我有一个非常基本的问题.
我是R的新用户,这些天我使用一个R包进行分析,我必须运行该包的R命令列表以获得所需的输出.我想创建我的分析管道并自动化它,以便我可以使用一个带有所需参数的单个R命令来完成我的工作.
我们在shell脚本中做的这类工作(我们添加了许多linux命令,awk/sed/perl行
请提供一些关于如何做到这一点的链接,我将非常感激.