小编Mar*_*ace的帖子

In 2014 for month = 1 then weeks = [1, 2, 3, 4, 5] (note 5 weeks because of 4 days rule)
In 2014 for month = 3 then weeks = [10, 11, 12, 13] (note 4 weeks because of same rule)

Run Code Online (Sandbox Code Playgroud)

我不想计算'手动'......

java jodatime

Mar*_*ace

2014 01-15

6
推荐指数

1
解决办法

818
查看次数

Spark 自定义估算器，包括持久性

我想为 Spark 开发一个自定义估算器，它也可以处理优秀管道 API 的持久性。但是如何在 PySpark mllib 中滚动自定义估计器所说，目前还没有很多文档。

我有一些用 Spark 编写的数据清理代码，想将其包装在自定义估算器中。包括一些na-替换、列删除、过滤和基本特征生成（例如出生日期到年龄）。

TransformSchema 将使用数据集的案例类ScalaReflection.schemaFor[MyClass].dataType.asInstanceOf[StructType]
fit 只适合例如 na 的平均年龄。替代品

我仍然不清楚的是：

transform自定义管道模型中的将用于转换新数据上的“拟合”估计器。它是否正确？如果是，我应该如何将拟合值（例如平均年龄）从上面转移到模型中？
如何处理持久性？我在私有 Spark 组件中找到了一些通用loadImpl方法，但不确定如何将我自己的参数（例如平均年龄）传输到用于序列化的MLReader/中。MLWriter

如果您能帮助我使用自定义估算器，那就太好了 - 特别是持久性部分。

pipeline apache-spark apache-spark-sql apache-spark-ml apache-spark-mllib

Geo*_*ler

2017 05-31

6
推荐指数

1
解决办法

2811
查看次数

在 Spark Scala UDF 中定义返回值

想象一下下面的代码：

def myUdf(arg: Int) = udf((vector: MyData) => {
  // complex logic that returns a Double
})

Run Code Online (Sandbox Code Playgroud)

如何定义 myUdf 的返回类型，以便查看代码的人立即知道它返回 Double？

scala user-defined-functions apache-spark udf

Mar*_*ace

lucky-day

6
推荐指数

2
解决办法

2万
查看次数

如何使用特定的键和值将流分组到地图？

我有一个Stream<Pair<String, String>> myStream;,我想把它聚合成一个Map<String, Set<String>> result;

我设法达到以下目的:

Map<String, Set<Pair<String, String>>> result = myStream
  .collect(Collectors.groupingBy(Pair::getKey, Collectors.toSet()));

Run Code Online (Sandbox Code Playgroud)

这失败了"无法从静态上下文引用非静态方法":

Map<String, Set<String>> result = myStream
  .collect(Collectors.groupingBy(Pair::getKey, Pair::getValue, Collectors.toSet()));

Run Code Online (Sandbox Code Playgroud)

我究竟做错了什么？

java collections java-8 java-stream

Mar*_*ace

lucky-day

6
推荐指数

1
解决办法

101
查看次数

从Java调用R - 更快地替代RCaller

我试图RCaller 2.0从Java调用R函数,我设法在几次尝试后使其工作.集成非常简单,但RCaller在运行时有点慢.我担心这RCaller 2.0不适合我的应用程序,因为我必须反复调用相同的脚本数千次,并且此库引入的延迟对我的需求是不可接受的.

是否有更快的(就运行时执行时间而言)从Java调用R脚本的替代方案？

java performance integration r rcaller

Mar*_*ace

2016 04-14

5
推荐指数

1
解决办法

5997
查看次数

给定纬度/经度的基于距离的JOIN

给出以下表格:

table A (id, latitude, longitude)
table B (id, latitude, longitude)

Run Code Online (Sandbox Code Playgroud)

如何构建一个高效的T-SQL查询,将A中的每一行与B中最近的行相关联？

ResultSet应该包含A中的所有行,并将它们与1和B中的1个元素相关联.我正在寻找的格式如下:

(A.id, B.id, distanceAB)

Run Code Online (Sandbox Code Playgroud)

我有一个函数来计算给定2对纬度和经度的距离.我尝试使用order by ... limit 1和/或尝试的东西,rank() over (partition by ...) as rowCount ... where rowCount = 1但结果要么不是我需要的,要么返回需要太长时间.

我错过了什么吗？

sql t-sql join distance haversine

Mar*_*ace

2012 01-21

5
推荐指数

2
解决办法

2187
查看次数

更改GIT端口

当我尝试时：git pull origin master我收到以下信息：ssh: connect to host localhost port 123: Bad file number

现在，我在某个地方以某种方式将 git 设置为使用端口 123，但这不再是有效的端口。我想将其更改为端口 321。

我去修改该~/.ssh/config文件，但我惊讶地发现该文件不存在。我也许可以创建一个并获得所需的行为，但我的问题是：端口 123 还可以在哪里定义？如何在不创建配置文件的情况下将其更改为 321？

git port configuration

Mar*_*ace

lucky-day

5
推荐指数

1
解决办法

2万
查看次数

多标签分类中的性能评估

因此，为了评估多标签分类算法（每个实例与多个标签相关联），我同时查看了准确性和F1-Measure。具有：

Accuracy = #Intersection(suggestions,correct_labels) / #Union(suggestions,correct_labels)
F1 Measure = 2 * (P * R) / (P + R)

Run Code Online (Sandbox Code Playgroud)

哪种方法更好，为什么？在什么情况下我应该优先选择另一个？

performance classification machine-learning

Mar*_*ace

lucky-day

5
推荐指数

1
解决办法

451
查看次数

标签统计

java ×5

apache-spark ×2

integration ×2

performance ×2

scala ×2

apache-spark-ml ×1

apache-spark-mllib ×1

apache-spark-sql ×1

classification ×1

collections ×1

configuration ×1

distance ×1

equals ×1

git ×1

haversine ×1

java-8 ×1

java-stream ×1

jodatime ×1

join ×1

machine-learning ×1

pipeline ×1

port ×1

r ×1

rcaller ×1

rmi ×1

sql ×1

string ×1

t-sql ×1

udf ×1

user-defined-functions ×1

标签 统计

小编Mar_ace的帖子

标签统计