小编bio*_*ian的帖子

由非root用户安装python包/工具

(1)我必须安装一个python包(HTSeq),但我没有root权限.

该软件包需要python 2.4或最新版本.我们的集群上有python 2.3.

因此我在我的一个本地目录上安装了python 2.7

./configure --prefix=/home/amit/tools/localpython 
make 
make install
Run Code Online (Sandbox Code Playgroud)

(2)该软件包还需要numpy:所以我也使用以下方法将它安装在我的本地目录中:

/home/amit/tools/localpython/bin/python2.7 setup.py install --home=/home/amit/tools/localnumpy 
Run Code Online (Sandbox Code Playgroud)

并做了

>>> sys.path.append("/home/amit/tools/localnumpy/lib/")
Run Code Online (Sandbox Code Playgroud)

(3)我下载了HTSeq的tar文件(我想下载)并运行

/home/amit/tools/localpython/bin/python2.7 setup.py install --home=/home/amit/tools/localhtseq
Run Code Online (Sandbox Code Playgroud)

它抛出以下错误:

Could not import 'setuptools',
falling back to 'distutils'.
Setup script for HTSeq: Failed to import 'numpy'.
Please install numpy and then try again to install HTSeq.
Run Code Online (Sandbox Code Playgroud)

请告诉我如何克服它的一些提示

提前致谢

python setuptools

6
推荐指数
1
解决办法
7326
查看次数

无法在 Spark 结构化流中写入聚合输出

我刚刚开始使用 Spark 结构化流媒体,所以只是尝试一下。在汇总我的数据时;我无法将其写入 csv 文件。我尝试了以下不同的组合,但尚未实现写入操作。

我的样本数据是

colum,values
A,12
A,233
B,232
A,67
B,5
A,89
A,100
Run Code Online (Sandbox Code Playgroud)

作为流数据帧读取

userSchema = StructType([
     StructField("colum", StringType()),
    StructField("values", IntegerType())
])

line2 = spark \
.readStream \
.format('csv')\
.schema(userSchema)\
 .csv("/data/location")
Run Code Online (Sandbox Code Playgroud)

我正在做以下聚合计算

 save=line2.groupBy("colum").count()
Run Code Online (Sandbox Code Playgroud)

预期输出是

+-----+-----+
|colum|count|
+-----+-----+
|B    |2    |
|A    |5    |
|colum|1    |
+-----+-----+
Run Code Online (Sandbox Code Playgroud)

场景一:

 save.writeStream.format("csv").queryName("a").outputMode("append").option("path", "/xyz/saveloc").option("checkpointLocation", "/xyz/chkptloc").start()
Run Code Online (Sandbox Code Playgroud)

错误:当无水印的流式 DataFrame/DataSet 上存在流式聚合时,不支持追加输出模式;;

备注:由于数据中没有时间戳,因此无法添加水印。

场景2:

save.writeStream.format("csv").queryName("a").outputMode("complete").option("path", "/xyz/saveloc").option("checkpointLocation", "/xyz/chkptloc").start()
Run Code Online (Sandbox Code Playgroud)

错误::org.apache.spark.sql.AnalysisException:数据源csv不支持完整输出模式;

场景3:

save.writeStream.format("csv").queryName("a").outputMode("update").option("path", "/xyz/saveloc").option("checkpointLocation", "/xyz/chkptloc").start()
Run Code Online (Sandbox Code Playgroud)

错误:org.apache.spark.sql.AnalysisException:数据源csv不支持更新输出模式;

场景四:

save.writeStream.format("parquet").queryName("a").outputMode("update").option("path", "/xyz/saveloc").option("checkpointLocation", "/xyz/chkptloc"").start()
Run Code Online (Sandbox Code Playgroud)

错误:org.apache.spark.sql.AnalysisException:数据源镶木地板不支持更新输出模式;

场景5:

save.writeStream.format("console").queryName("a").outputMode("complete").option("path", "/xyz/saveloc").option("checkpointLocation", "/xyz/chkptloc"").start()
Run Code Online (Sandbox Code Playgroud)

注释:该位置没有生成输出。

场景六:

save.writeStream.format("memory").queryName("a").outputMode("complete").option("path", "/xyz/saveloc").option("checkpointLocation", "/xyz/chkptloc"").start()
Run Code Online (Sandbox Code Playgroud)

评论:没有生成输出。 …

spark-streaming pyspark spark-structured-streaming

5
推荐指数
0
解决办法
986
查看次数

字符向量作为 R 脚本的参数

我正在运行 R 脚本,但遇到错误:

Rscript 示例.R "a,b,c"

我正在运行上面的代码,其中 a、b、c 是作为参数传递的字符向量的元素。如果我传递数值(例如 1,5,6),上面的代码可以正常工作

Code is :
library("optparse")
library("tldutils") # eval_string
# install.packages("tldutils", repos="http://R-Forge.R-project.org")
option_list <- list(
make_option(c("-c", "--count"), type="character", default="5",
help='Vector of numbers separated by commas and surrounded by ""',
metavar="number")
)
args <- parse_args(OptionParser(option_list = option_list))
print(args$c)
eval_string(sprintf("foo = c(%s)", args$c))
print(foo)
Run Code Online (Sandbox Code Playgroud)

错误是:

Error in eval(expr, envir, enclos) : object 'a' not found
Calls: eval_string -> eval.parent -> eval -> eval
Execution halted
Run Code Online (Sandbox Code Playgroud)

请帮助我,我需要在代码中编辑哪里?

r

3
推荐指数
1
解决办法
2807
查看次数

无法绘制svm情节.terms.default(x)中的错误:没有术语组件也没有属性

我可以在我的数据集上使用R包"e1071"运行svm,但我无法使用任何两个预测变量绘制图形.即使经过Google搜索,我也无法找到解决方案.专家请帮我解决这个问题:

我有一个包含以下属性的数据集:

> dim(fulldata)
[1]  153 2915

> str(fulldata)
'data.frame':   153 obs. of  2915 variables:
$ label : Factor w/ 2 levels "1","2": 1 1 1 1 1 1 1 1 1 1 ...
$ V12   : num  1.372 -1.541 0.201 1.06 1.815 ...
$ V14   : num  0.052 -1.442 1.022 -0.35 0.192 ...
$ V17   : num  0.885 -2.569 0.326 1.574 1.394 ...
$ V37   : num  0.356 2.884 -0.452 0.067 0.282 ...
$ V51   : num  -0.018 -1.71 …
Run Code Online (Sandbox Code Playgroud)

r svm

3
推荐指数
1
解决办法
4228
查看次数

如何在R中自动执行命令?

我有一个非常基本的问题.

我是R的新用户,这些天我使用一个R包进行分析,我必须运行该包的R命令列表以获得所需的输出.我想创建我的分析管道并自动化它,以便我可以使用一个带有所需参数的单个R命令来完成我的工作.

我们在shell脚本中做的这类工作(我们添加了许多linux命令,awk/sed/perl行

请提供一些关于如何做到这一点的链接,我将非常感激.

r

2
推荐指数
1
解决办法
7385
查看次数