小编mrj*_*eph的帖子

R表功能 - 如何删除0计数?

我需要从表函数输出中删除行,这些行在所有列中都有0个计数.有没有简单的方法呢?

table(ds$animal,ds$gender)

___ | M | F

Cat | 9 | 4 

Dog | 0 | 0

Rat | 4 | 3
Run Code Online (Sandbox Code Playgroud)

我只是想看看那些行:

___ | M | F

Cat | 9 | 4 

Rat | 4 | 3
Run Code Online (Sandbox Code Playgroud)

r

10
推荐指数
1
解决办法
1万
查看次数

NiFi - 如何在ExecuteStreamCommand中引用flowFile?

我需要执行类似:sed'1d'simple.tsv> noHeader.tsv

这将从我的大流文件中删除第一行(> 1 GB).

问题是 - 我需要在我的流文件上执行它,所以它是:

sed'1d'myFlowFile> myFlowFile

问题是:我应该如何配置ExecuteStreamCommand处理器,以便它在我的流文件上运行命令并将其返回到我的流文件?如果sed不是最佳选择,我可以考虑采取其他方式(例如尾巴)

ExecuteStreamCommand处理器

谢谢,米哈尔

编辑2(解决方案):

下面是最终的ExecuteStreamCommand配置,它可以完成我需要的操作(从流文件中删除第一行).@Andy - 非常感谢所有珍贵的提示. ExecuteStreamCommand  - 从流中删除第1行

apache-nifi

6
推荐指数
1
解决办法
6895
查看次数

是否可以在Sparklyr中将ORC文件读取到Spark数据框?

我知道sparklyr有以下读取文件方法:

  • spark_read_csv
  • spark_read_parquet
  • spark_read_json

那么阅读orc文件怎么样?这个图书馆是否支持它?

我知道我可以在SparkR或者这个解决方案中使用read.orc,但是我想把我的代码保存在sparklyr中.

r apache-spark sparkr orc sparklyr

3
推荐指数
1
解决办法
1005
查看次数

NiFi - ConvertCSVtoAVRO - 如何捕获失败的记录?

将CSV转换为AVRO时,我想将所有拒绝输出到文件中(假设为error.csv).

拒绝通常是由错误的数据类型引起的 - 例如,当"长"字段中出现"字符串"值时.

我试图使用不兼容的输出,但不保存无法转换的行(在下面的示例中为2),它保存整个CSV文件.是否有可能仅以某种方式过滤掉那些无法转换的记录?(NiFi是否会为这些记录添加一些标记等?)两个处理器:RouteOnAttribute和RouteOnContent路由整个文件.流的"不兼容"段是否以某种方式将单个记录标记为"错误"属性,将文件拆分成行后可用?我在任何文档中都找不到这个.

Nifi流量

csv avro apache-nifi

2
推荐指数
1
解决办法
753
查看次数

PySpark 到 PMML - “字段标签不存在”错误

我是 PySpark 的新手,所以这可能是一个基本问题。我正在尝试使用JPMML-SparkML库将PySpark代码导出到PMML从JPMML-SparkML网站运行示例时:

from pyspark.ml import Pipeline
from pyspark.ml.classification import DecisionTreeClassifier
from pyspark.ml.feature import RFormula

df = spark.read.csv("Iris.csv", header = True, inferSchema = True)
formula = RFormula(formula = "Species ~ .")
classifier = DecisionTreeClassifier()
pipeline = Pipeline(stages = [formula, classifier])
pipelineModel = pipeline.fit(df)
Run Code Online (Sandbox Code Playgroud)

我收到错误Field "label" does not exist。从同一页面运行Scala代码时会弹出相同的错误。有谁知道这个标签字段指的是什么?看起来它像是隐藏在后台执行的 Spark 代码中的东西。我怀疑这个标签字段是否可以成为 Iris 数据集的一部分。

完整的错误消息:

Traceback (most recent call last): File "/usr/lib/spark/spark-2.1.1-bin-hadoop2.7/python/pyspark/sql/utils.py", line 63, in deco return f(*a, **kw) File "/usr/lib/spark/spark-2.1.1-bin-hadoop2.7/python/lib/py4j-0.10.4-src.zip/py4j/protocol.py", …
Run Code Online (Sandbox Code Playgroud)

pmml pyspark apache-spark-ml

1
推荐指数
1
解决办法
8958
查看次数

标签 统计

apache-nifi ×2

r ×2

apache-spark ×1

apache-spark-ml ×1

avro ×1

csv ×1

orc ×1

pmml ×1

pyspark ×1

sparklyr ×1

sparkr ×1