我需要从表函数输出中删除行,这些行在所有列中都有0个计数.有没有简单的方法呢?
table(ds$animal,ds$gender)
___ | M | F
Cat | 9 | 4
Dog | 0 | 0
Rat | 4 | 3
Run Code Online (Sandbox Code Playgroud)
我只是想看看那些行:
___ | M | F
Cat | 9 | 4
Rat | 4 | 3
Run Code Online (Sandbox Code Playgroud) 我需要执行类似:sed'1d'simple.tsv> noHeader.tsv
这将从我的大流文件中删除第一行(> 1 GB).
问题是 - 我需要在我的流文件上执行它,所以它是:
sed'1d'myFlowFile> myFlowFile
问题是:我应该如何配置ExecuteStreamCommand处理器,以便它在我的流文件上运行命令并将其返回到我的流文件?如果sed不是最佳选择,我可以考虑采取其他方式(例如尾巴)
谢谢,米哈尔
编辑2(解决方案):
下面是最终的ExecuteStreamCommand配置,它可以完成我需要的操作(从流文件中删除第一行).@Andy - 非常感谢所有珍贵的提示.

我知道sparklyr有以下读取文件方法:
spark_read_csvspark_read_parquetspark_read_json那么阅读orc文件怎么样?这个图书馆是否支持它?
将CSV转换为AVRO时,我想将所有拒绝输出到文件中(假设为error.csv).
拒绝通常是由错误的数据类型引起的 - 例如,当"长"字段中出现"字符串"值时.
我试图使用不兼容的输出,但不保存无法转换的行(在下面的示例中为2),它保存整个CSV文件.是否有可能仅以某种方式过滤掉那些无法转换的记录?(NiFi是否会为这些记录添加一些标记等?)两个处理器:RouteOnAttribute和RouteOnContent路由整个文件.流的"不兼容"段是否以某种方式将单个记录标记为"错误"属性,将文件拆分成行后可用?我在任何文档中都找不到这个.
我是 PySpark 的新手,所以这可能是一个基本问题。我正在尝试使用JPMML-SparkML库将PySpark代码导出到PMML。从JPMML-SparkML网站运行示例时:
from pyspark.ml import Pipeline
from pyspark.ml.classification import DecisionTreeClassifier
from pyspark.ml.feature import RFormula
df = spark.read.csv("Iris.csv", header = True, inferSchema = True)
formula = RFormula(formula = "Species ~ .")
classifier = DecisionTreeClassifier()
pipeline = Pipeline(stages = [formula, classifier])
pipelineModel = pipeline.fit(df)
Run Code Online (Sandbox Code Playgroud)
我收到错误Field "label" does not exist。从同一页面运行Scala代码时会弹出相同的错误。有谁知道这个标签字段指的是什么?看起来它像是隐藏在后台执行的 Spark 代码中的东西。我怀疑这个标签字段是否可以成为 Iris 数据集的一部分。
完整的错误消息:
Traceback (most recent call last): File "/usr/lib/spark/spark-2.1.1-bin-hadoop2.7/python/pyspark/sql/utils.py", line 63, in deco return f(*a, **kw) File "/usr/lib/spark/spark-2.1.1-bin-hadoop2.7/python/lib/py4j-0.10.4-src.zip/py4j/protocol.py", …Run Code Online (Sandbox Code Playgroud) apache-nifi ×2
r ×2
apache-spark ×1
avro ×1
csv ×1
orc ×1
pmml ×1
pyspark ×1
sparklyr ×1
sparkr ×1