小编bio*_*ian的帖子

由非root用户安装python包/工具

(1)我必须安装一个python包(HTSeq),但我没有root权限.

该软件包需要python 2.4或最新版本.我们的集群上有python 2.3.

因此我在我的一个本地目录上安装了python 2.7

./configure --prefix=/home/amit/tools/localpython 
make 
make install

Run Code Online (Sandbox Code Playgroud)

(2)该软件包还需要numpy:所以我也使用以下方法将它安装在我的本地目录中:

/home/amit/tools/localpython/bin/python2.7 setup.py install --home=/home/amit/tools/localnumpy

Run Code Online (Sandbox Code Playgroud)

并做了

>>> sys.path.append("/home/amit/tools/localnumpy/lib/")

Run Code Online (Sandbox Code Playgroud)

(3)我下载了HTSeq的tar文件(我想下载)并运行

/home/amit/tools/localpython/bin/python2.7 setup.py install --home=/home/amit/tools/localhtseq

Run Code Online (Sandbox Code Playgroud)

它抛出以下错误:

Could not import 'setuptools',
falling back to 'distutils'.
Setup script for HTSeq: Failed to import 'numpy'.
Please install numpy and then try again to install HTSeq.

Run Code Online (Sandbox Code Playgroud)

请告诉我如何克服它的一些提示

提前致谢

python setuptools

bio*_*ian

2012 05-01

6
推荐指数

1
解决办法

7326
查看次数

无法在 Spark 结构化流中写入聚合输出

我刚刚开始使用 Spark 结构化流媒体，所以只是尝试一下。在汇总我的数据时；我无法将其写入 csv 文件。我尝试了以下不同的组合，但尚未实现写入操作。

我的样本数据是

colum,values
A,12
A,233
B,232
A,67
B,5
A,89
A,100

Run Code Online (Sandbox Code Playgroud)

作为流数据帧读取

userSchema = StructType([
     StructField("colum", StringType()),
    StructField("values", IntegerType())
])

line2 = spark \
.readStream \
.format('csv')\
.schema(userSchema)\
 .csv("/data/location")

Run Code Online (Sandbox Code Playgroud)

我正在做以下聚合计算

 save=line2.groupBy("colum").count()

Run Code Online (Sandbox Code Playgroud)

预期输出是

+-----+-----+
|colum|count|
+-----+-----+
|B    |2    |
|A    |5    |
|colum|1    |
+-----+-----+

Run Code Online (Sandbox Code Playgroud)

场景一：

 save.writeStream.format("csv").queryName("a").outputMode("append").option("path", "/xyz/saveloc").option("checkpointLocation", "/xyz/chkptloc").start()

Run Code Online (Sandbox Code Playgroud)

错误：当无水印的流式 DataFrame/DataSet 上存在流式聚合时，不支持追加输出模式；；

备注：由于数据中没有时间戳，因此无法添加水印。

场景2：

save.writeStream.format("csv").queryName("a").outputMode("complete").option("path", "/xyz/saveloc").option("checkpointLocation", "/xyz/chkptloc").start()

Run Code Online (Sandbox Code Playgroud)

错误：：org.apache.spark.sql.AnalysisException：数据源csv不支持完整输出模式；

场景3：

save.writeStream.format("csv").queryName("a").outputMode("update").option("path", "/xyz/saveloc").option("checkpointLocation", "/xyz/chkptloc").start()

Run Code Online (Sandbox Code Playgroud)

错误：org.apache.spark.sql.AnalysisException：数据源csv不支持更新输出模式；

场景四：

save.writeStream.format("parquet").queryName("a").outputMode("update").option("path", "/xyz/saveloc").option("checkpointLocation", "/xyz/chkptloc"").start()

Run Code Online (Sandbox Code Playgroud)

错误：org.apache.spark.sql.AnalysisException：数据源镶木地板不支持更新输出模式；

场景5：

save.writeStream.format("console").queryName("a").outputMode("complete").option("path", "/xyz/saveloc").option("checkpointLocation", "/xyz/chkptloc"").start()

Run Code Online (Sandbox Code Playgroud)

注释：该位置没有生成输出。

场景六：

save.writeStream.format("memory").queryName("a").outputMode("complete").option("path", "/xyz/saveloc").option("checkpointLocation", "/xyz/chkptloc"").start()

Run Code Online (Sandbox Code Playgroud)

评论：没有生成输出。 …

spark-streaming pyspark spark-structured-streaming

bio*_*ian

2019 12-10

5
推荐指数

0
解决办法

986
查看次数

字符向量作为 R 脚本的参数

我正在运行 R 脚本，但遇到错误：

Rscript 示例.R "a,b,c"

我正在运行上面的代码，其中 a、b、c 是作为参数传递的字符向量的元素。如果我传递数值（例如 1,5,6），上面的代码可以正常工作

Code is :
library("optparse")
library("tldutils") # eval_string
# install.packages("tldutils", repos="http://R-Forge.R-project.org")
option_list <- list(
make_option(c("-c", "--count"), type="character", default="5",
help='Vector of numbers separated by commas and surrounded by ""',
metavar="number")
)
args <- parse_args(OptionParser(option_list = option_list))
print(args$c)
eval_string(sprintf("foo = c(%s)", args$c))
print(foo)

Run Code Online (Sandbox Code Playgroud)

错误是：

Error in eval(expr, envir, enclos) : object 'a' not found
Calls: eval_string -> eval.parent -> eval -> eval
Execution halted

Run Code Online (Sandbox Code Playgroud)

请帮助我，我需要在代码中编辑哪里？

bio*_*ian

lucky-day

3
推荐指数

1
解决办法

2807
查看次数

无法绘制svm情节.terms.default(x)中的错误:没有术语组件也没有属性

我可以在我的数据集上使用R包"e1071"运行svm,但我无法使用任何两个预测变量绘制图形.即使经过Google搜索,我也无法找到解决方案.专家请帮我解决这个问题:

我有一个包含以下属性的数据集:

> dim(fulldata)
[1]  153 2915

> str(fulldata)
'data.frame':   153 obs. of  2915 variables:
$ label : Factor w/ 2 levels "1","2": 1 1 1 1 1 1 1 1 1 1 ...
$ V12   : num  1.372 -1.541 0.201 1.06 1.815 ...
$ V14   : num  0.052 -1.442 1.022 -0.35 0.192 ...
$ V17   : num  0.885 -2.569 0.326 1.574 1.394 ...
$ V37   : num  0.356 2.884 -0.452 0.067 0.282 ...
$ V51   : num  -0.018 -1.71 …

Run Code Online (Sandbox Code Playgroud)

r svm

bio*_*ian

lucky-day

3
推荐指数

1
解决办法

4228
查看次数