小编men*_*h84的帖子

AngularJS指令中没有值的属性

我写了一个带隔离范围的指令.

app.directive('myDirective', function() {
    return {
        restrict: 'E',
        scope {
            attr1: '@',
            attr2: '@',
            noValueAttr: // what to put here?
        },
        link: function(scope, elem, attrs) {
            // how to check here if noValueAttr is present in mark-up?
        }
    };
});
Run Code Online (Sandbox Code Playgroud)

HTML可能是

<my-directive attr1='...' attr='...' ... no-value-attr>
Run Code Online (Sandbox Code Playgroud)

要么

<my-directive attr1='...' attr='...' >
Run Code Online (Sandbox Code Playgroud)

我想知道如何使用(并使指令检测它是否存在)一个没有赋值的可选属性.谢谢.

angularjs angularjs-directive

6
推荐指数
1
解决办法
5451
查看次数

PySpark中的列过滤

我有一个df从Hive表加载的数据帧,它有一个时间戳列,比如说ts,字符串类型为格式dd-MMM-yy hh.mm.ss.MS a(转换为python datetime库,这是%d-%b-%y %I.%M.%S.%f %p).

现在我想过滤数据帧中过去五分钟的行:

only_last_5_minutes = df.filter(
    datetime.strptime(df.ts, '%d-%b-%y %I.%M.%S.%f %p') > datetime.now() - timedelta(minutes=5)
)
Run Code Online (Sandbox Code Playgroud)

但是,这不起作用,我收到此消息

TypeError: strptime() argument 1 must be string, not Column
Run Code Online (Sandbox Code Playgroud)

看起来我有错误的列操作应用程序,在我看来,我必须创建一个lambda函数来过滤满足所需条件的每一列,但特别是Python和lambda表达式的新手,我不知道如何创建我的过滤器正确.请指教.

PS我更喜欢将我的过滤器表示为Python本机(或SparkSQL)而不是Hive sql查询表达式'WHERE'中的过滤器.

首选:

df = sqlContext.sql("SELECT * FROM my_table")
df.filter( // filter here)
Run Code Online (Sandbox Code Playgroud)

不是首选的:

df = sqlContext.sql("SELECT * FROM my_table WHERE...")
Run Code Online (Sandbox Code Playgroud)

python lambda apache-spark apache-spark-sql pyspark

6
推荐指数
1
解决办法
3万
查看次数

使用本地文件系统作为Flume源

我刚开始学习大数据,此时,我正在研究Flume.我遇到的常见例子是使用一些Java处理推文(来自Cloudera的例子).

仅用于测试和模拟目的,我可以将本地文件系统用作Flume源吗?特别是一些Excel或CSV文件?我是否还需要使用一些Java代码,除了Flume配置文件,就像在Twitter提取中一样?

此源是事件驱动还是可轮询?

感谢您的输入.

java flume

5
推荐指数
1
解决办法
1949
查看次数

使用Flume将CSV文件写入HDFS

我正在使用Flume从我的本地文件系统向HDFS写入许多CSV文件.

我想知道什么是Flume HDFS接收器的最佳配置,这样本地系统上的每个文件都将完全以HDFS格式复制为CSV.我希望Flume处理的每个CSV文件都是单个事件,刷新并写为单个文件.尽可能地,我希望文件完全相同,没有标题内容等.

我需要将这些值放在哪里来模拟我想要的行为?

hdfs.batchSize = x
hdfs.rollSize = x
hdfs.rollInterval = x
hdfs.rollCount = x
Run Code Online (Sandbox Code Playgroud)

请提供是否还有其他Flume代理配置变量我也需要更改.

如果使用现有配置无效,我是否需要使用自定义接收器才能达到我想要的效果?

感谢您的输入.

PS我知道hadoop fs -put-copyFromLocal更适合这项工作,但由于这是一个概念证明(表明我们可以使用Flume进行数据摄取),这就是我需要使用Flume的原因.

hdfs flume

5
推荐指数
1
解决办法
1138
查看次数

将本地向量转换为RDD [Vector]

我是Spark和Scala的新手,我正在尝试阅读有关MLlib的文档.

http://spark.apache.org/docs/1.4.0/mllib-data-types.html上的教程,

import org.apache.spark.mllib.linalg.Vector
import org.apache.spark.mllib.linalg.distributed.RowMatrix

val rows: RDD[Vector] = ... // an RDD of local vectors
// Create a RowMatrix from an RDD[Vector].
val mat: RowMatrix = new RowMatrix(rows)

// Get its size.
val m = mat.numRows()
val n = mat.numCols()
Run Code Online (Sandbox Code Playgroud)

没有说明如何从局部向量列表构造RD​​D [Vector](变量行).

例如,我已经在spark-shell中执行了(作为我探索的一部分)

val v0: Vector = Vectors.dense(1.0, 0.0, 3.0)
val v1: Vector = Vectors.sparse(3, Array(1), Array(2.5))
val v2: Vector = Vectors.sparse(3, Seq((0, 1.5),(1, 1.8)))
Run Code Online (Sandbox Code Playgroud)

如果'合并'将看起来像这个矩阵

1.0  0.0  3.0
0.0  2.5  0.0
1.5  1.8  0.0
Run Code Online (Sandbox Code Playgroud)

那么,如何转变的载体v0 …

scala apache-spark

5
推荐指数
1
解决办法
5640
查看次数

在不使用Java中的POJO类的情况下解析不同的JSON响应

我在Java中解析来自REST API的JSON响应,但我不想为每个响应创建一个Java类(POJO)(响应具有不同的数据结构和字段).Java中是否有一个更通用的JSON解析器,类似于JavaScript的直接语法?

下面的JSON只是众多REST端点中的一个的结果

{
    "f1" : "volume",
    "f2" : "gender",
    "f3" : "days",
    "f4" : [{
            "id" : "F",
            "name" : "female",
            "values" : [{
                    "name" : "September",
                    "value" : 12
                }
            ]
        }, {
            "id" : "M",
            "name" : "male",
            "values" : [{
                    "name" : "September",
                    "value" : 11
                }
            ]
        }
    ]
}
Run Code Online (Sandbox Code Playgroud)

在JavaScript中,要访问女性的值:

jsonRoot.f4[0].values[0].value
Run Code Online (Sandbox Code Playgroud)

这比创建大量Java类更整洁.您能否提出类似的建议或避免创建许多POJO的方法?

javascript java json

5
推荐指数
1
解决办法
3765
查看次数

将单个输入元素设置为ng-pristine

我知道有一个$ setPristine()函数用于表单元素,如果我想要单个设置为ng-pristine单元素标签,是否存在等价<input>

angularjs

4
推荐指数
1
解决办法
1217
查看次数

在Spark的RDD的take和takeOrdered方法

我对Spark的rdd.take(n)和rdd.takeOrdered(n)如何工作有点困惑.有人可以用一些例子向我解释这两种方法吗?谢谢.

scala apache-spark

4
推荐指数
1
解决办法
4597
查看次数

在Spark的rdd.map(_.swap)

我是Scala和Spark的新手.任何人都可以解释是什么意思

rdd.map(_.swap)
Run Code Online (Sandbox Code Playgroud)

?如果我查看Scala/Spark API,我找不到swapRDD类中的方法.

scala apache-spark

4
推荐指数
1
解决办法
5387
查看次数

如何将表转换为Spark Dataframe

在Spark SQL中,可以使用以下方法将数据帧作为表进行查询:

sqlContext.registerDataFrameAsTable(df, "mytable")
Run Code Online (Sandbox Code Playgroud)

假设我拥有的是什么,我mytable如何获取或访问它作为DataFrame?

apache-spark apache-spark-sql pyspark spark-dataframe

4
推荐指数
2
解决办法
7753
查看次数