我写了一个带隔离范围的指令.
app.directive('myDirective', function() {
return {
restrict: 'E',
scope {
attr1: '@',
attr2: '@',
noValueAttr: // what to put here?
},
link: function(scope, elem, attrs) {
// how to check here if noValueAttr is present in mark-up?
}
};
});
Run Code Online (Sandbox Code Playgroud)
HTML可能是
<my-directive attr1='...' attr='...' ... no-value-attr>
Run Code Online (Sandbox Code Playgroud)
要么
<my-directive attr1='...' attr='...' >
Run Code Online (Sandbox Code Playgroud)
我想知道如何使用(并使指令检测它是否存在)一个没有赋值的可选属性.谢谢.
我有一个df从Hive表加载的数据帧,它有一个时间戳列,比如说ts,字符串类型为格式dd-MMM-yy hh.mm.ss.MS a(转换为python datetime库,这是%d-%b-%y %I.%M.%S.%f %p).
现在我想过滤数据帧中过去五分钟的行:
only_last_5_minutes = df.filter(
datetime.strptime(df.ts, '%d-%b-%y %I.%M.%S.%f %p') > datetime.now() - timedelta(minutes=5)
)
Run Code Online (Sandbox Code Playgroud)
但是,这不起作用,我收到此消息
TypeError: strptime() argument 1 must be string, not Column
Run Code Online (Sandbox Code Playgroud)
看起来我有错误的列操作应用程序,在我看来,我必须创建一个lambda函数来过滤满足所需条件的每一列,但特别是Python和lambda表达式的新手,我不知道如何创建我的过滤器正确.请指教.
PS我更喜欢将我的过滤器表示为Python本机(或SparkSQL)而不是Hive sql查询表达式'WHERE'中的过滤器.
首选:
df = sqlContext.sql("SELECT * FROM my_table")
df.filter( // filter here)
Run Code Online (Sandbox Code Playgroud)
不是首选的:
df = sqlContext.sql("SELECT * FROM my_table WHERE...")
Run Code Online (Sandbox Code Playgroud) 我刚开始学习大数据,此时,我正在研究Flume.我遇到的常见例子是使用一些Java处理推文(来自Cloudera的例子).
仅用于测试和模拟目的,我可以将本地文件系统用作Flume源吗?特别是一些Excel或CSV文件?我是否还需要使用一些Java代码,除了Flume配置文件,就像在Twitter提取中一样?
此源是事件驱动还是可轮询?
感谢您的输入.
我正在使用Flume从我的本地文件系统向HDFS写入许多CSV文件.
我想知道什么是Flume HDFS接收器的最佳配置,这样本地系统上的每个文件都将完全以HDFS格式复制为CSV.我希望Flume处理的每个CSV文件都是单个事件,刷新并写为单个文件.尽可能地,我希望文件完全相同,没有标题内容等.
我需要将这些值放在哪里来模拟我想要的行为?
hdfs.batchSize = x
hdfs.rollSize = x
hdfs.rollInterval = x
hdfs.rollCount = x
Run Code Online (Sandbox Code Playgroud)
请提供是否还有其他Flume代理配置变量我也需要更改.
如果使用现有配置无效,我是否需要使用自定义接收器才能达到我想要的效果?
感谢您的输入.
PS我知道hadoop fs -put或-copyFromLocal更适合这项工作,但由于这是一个概念证明(表明我们可以使用Flume进行数据摄取),这就是我需要使用Flume的原因.
我是Spark和Scala的新手,我正在尝试阅读有关MLlib的文档.
http://spark.apache.org/docs/1.4.0/mllib-data-types.html上的教程,
import org.apache.spark.mllib.linalg.Vector
import org.apache.spark.mllib.linalg.distributed.RowMatrix
val rows: RDD[Vector] = ... // an RDD of local vectors
// Create a RowMatrix from an RDD[Vector].
val mat: RowMatrix = new RowMatrix(rows)
// Get its size.
val m = mat.numRows()
val n = mat.numCols()
Run Code Online (Sandbox Code Playgroud)
没有说明如何从局部向量列表构造RDD [Vector](变量行).
例如,我已经在spark-shell中执行了(作为我探索的一部分)
val v0: Vector = Vectors.dense(1.0, 0.0, 3.0)
val v1: Vector = Vectors.sparse(3, Array(1), Array(2.5))
val v2: Vector = Vectors.sparse(3, Seq((0, 1.5),(1, 1.8)))
Run Code Online (Sandbox Code Playgroud)
如果'合并'将看起来像这个矩阵
1.0 0.0 3.0
0.0 2.5 0.0
1.5 1.8 0.0
Run Code Online (Sandbox Code Playgroud)
那么,如何转变的载体v0 …
我在Java中解析来自REST API的JSON响应,但我不想为每个响应创建一个Java类(POJO)(响应具有不同的数据结构和字段).Java中是否有一个更通用的JSON解析器,类似于JavaScript的直接语法?
下面的JSON只是众多REST端点中的一个的结果
{
"f1" : "volume",
"f2" : "gender",
"f3" : "days",
"f4" : [{
"id" : "F",
"name" : "female",
"values" : [{
"name" : "September",
"value" : 12
}
]
}, {
"id" : "M",
"name" : "male",
"values" : [{
"name" : "September",
"value" : 11
}
]
}
]
}
Run Code Online (Sandbox Code Playgroud)
在JavaScript中,要访问女性的值:
jsonRoot.f4[0].values[0].value
Run Code Online (Sandbox Code Playgroud)
这比创建大量Java类更整洁.您能否提出类似的建议或避免创建许多POJO的方法?
我知道有一个$ setPristine()函数用于表单元素,如果我想要单个设置为ng-pristine单元素标签,是否存在等价<input>?
我对Spark的rdd.take(n)和rdd.takeOrdered(n)如何工作有点困惑.有人可以用一些例子向我解释这两种方法吗?谢谢.
我是Scala和Spark的新手.任何人都可以解释是什么意思
rdd.map(_.swap)
Run Code Online (Sandbox Code Playgroud)
?如果我查看Scala/Spark API,我找不到swapRDD类中的方法.
在Spark SQL中,可以使用以下方法将数据帧作为表进行查询:
sqlContext.registerDataFrameAsTable(df, "mytable")
Run Code Online (Sandbox Code Playgroud)
假设我拥有的是什么,我mytable如何获取或访问它作为DataFrame?