小编Mar*_*rko的帖子

LL(1)解析器中FIRST和FOLLOW的目的是什么？

任何人都可以向我解释如何在LL(1)语法中使用FIRST和FOLLOW？我知道它们用于语法表构造,但我不明白如何.

parsing context-free-grammar ll-grammar

Mar*_*rko

2016 01-06

20
推荐指数

1
解决办法

6630
查看次数

制作距离矩阵或重复计算距离

我正在研究K-medoids算法的实现.它是一种聚类算法,其中一个步骤包括在群集中查找最具代表性的点.

所以,这就是事情

我有一定数量的集群
每个群集包含一定数量的点
我需要找到每个集群中的点,如果它被选为集群代表,那么结果的误差最小
需要计算群集中每个点到所有其他点的距离
这种距离计算可以像欧几里德那样简单,也可以像两个信号之间的DTW(动态时间扭曲)那样复杂

有两种方法,一种是计算距离矩阵,它将在数据集中的所有点之间保存值,另一种是计算聚类期间的距离,这将导致重复计算某些点之间的距离.

一方面,要构建距离矩阵,您必须计算整个数据集中所有点之间的距离,并且永远不会使用某些计算值.

另一方面,如果不构建距离矩阵,则将在特定次数的迭代中重复某些计算.

哪种方法更好？

我也正在考虑MapReduce的实现,所以也欢迎来自这个角度的意见.

谢谢

algorithm hadoop mapreduce

Mar*_*rko

2015 01-20

12
推荐指数

1
解决办法

902
查看次数

Spark MLlib和Spark ML中的PCA

Spark现在有两个机器学习库 - Spark MLlib和Spark ML.它们在实现的内容上有些重叠,但正如我所理解的那样(作为整个Spark生态系统的新手)Spark ML是可行的方式,MLlib仍然主要用于向后兼容.

我的问题非常具体,与PCA有关.在MLlib实现中,似乎存在列数的限制

spark.mllib支持PCA,用于存储以行为导向格式和任何向量的高小矩阵.

另外,如果你看一下Java代码示例,也会有这个

列数应该很小,例如小于1000.

另一方面,如果你看一下ML文档,没有提到的限制.

所以,我的问题是 - Spark ML中是否也存在这种限制？如果是这样,为什么限制,即使列数很大,是否有任何解决方法可以使用此实现？

apache-spark apache-spark-ml apache-spark-mllib

Mar*_*rko

lucky-day

10
推荐指数

1
解决办法

3246
查看次数

S3和EMR数据位置

使用MapReduce和HDFS的数据位置非常重要(同样适用于Spark,HBase).在云中部署集群时,我一直在研究AWS以及两个选项:

EC2
EMR + S3

第二种选择似乎更有吸引力,原因各不相同,其中最有趣的是能够分别扩展存储和处理以及在不需要时关闭处理(更正确,仅在需要时打开它).这是一个解释使用S3的优点的示例.

让我烦恼的是数据局部性的问题.如果数据存储在S3中,则每次运行作业时都需要将其拉到HDFS.我的问题是 - 这个问题有多大,它还值得吗？

令我感到安慰的是,我将在第一次提取数据,然后所有下一个工作将在本地获得中间结果.

我正在寻找一些有实际经验的人的答案.谢谢.

hadoop amazon-s3 amazon-ec2 amazon-web-services amazon-emr

Mar*_*rko

lucky-day

10
推荐指数

1
解决办法

743
查看次数

为什么Tuple或KeyValueItem没有setter？

我需要一个包含一对值的结构,其中一个值将被更改.所以我的第一个想法是使用KeyValueItem或Tupple <,>然后我看到他们只有一个吸气剂.我不明白为什么？在我的情况下你会用什么？我可以创建自己的课程,但还有其他方法吗？

Mar*_*rko

lucky-day

8
推荐指数

2
解决办法

4648
查看次数

使用Kafka将数据导入Hadoop

首先,我正在考虑使用什么来将事件放入Hadoop,在那里存储它们并定期对它们进行分析(可能使用Ooozie来安排定期分析)Kafka或Flume,并决定Kafka可能是一个更好的解决方案,因为我们还有一个用于执行事件处理的组件,因此以这种方式,批处理和事件处理组件以相同的方式获取数据.

但是知道我正在寻找具体的建议如何从经纪人那里获取数据到Hadoop.

我在这里发现Flume可以与Kafka结合使用

Flume - 包含Kafka Source(消费者)和Sink(制作人)

并且在同一页面和Kafka文档中也发现了一些名为Camus的东西

Camus - LinkedIn的Kafka => HDFS管道.这个用于LinkedIn的所有数据,效果很好.

我对能做到这一点的更好(更简单,记录更好的解决方案)感兴趣吗？此外,有任何示例或教程如何做到这一点？

我应该何时使用这种变体而不是更简单的高级消费者？

如果有另外一个/更好的解决方案而不是这两个,我会打开建议.

谢谢

hadoop flume apache-kafka

Mar*_*rko

2014 11-04

6
推荐指数

1
解决办法

7240
查看次数

如何不绘制缺失的经期

我正在尝试绘制时间序列数据，其中在某些时期没有数据。数据被加载到数据框中，我使用绘制它df.plot()。问题在于，绘制时缺失的时期会被连接起来，给人一种该时期存在价值的印象，但实际上并不存在。

这是问题的一个例子

9 月 1 日至 9 月 8 日以及 9 月 9 日至 9 月 25 日期间没有数据，但绘制数据的方式看起来似乎该时期有值。

我希望在该时期内显示零值，或者根本没有值。怎么做？

需要明确的是，我没有 [Sep 01、Sep 08]、[Sep 09、Sep 29] 期间的 NaN 值，但根本没有数据（甚至在时间索引中也没有）。

python plot time-series nan pandas

Mar*_*rko

2017 01-27

6
推荐指数

1
解决办法

2044
查看次数

应用sklearn时保留pandas索引

我有一个具有 DateTime 索引的数据集，并且我正在使用 sklearn 中的 PCA 来减少维数。

以下问题困扰着我 - PCA 会保留我的系列中点的顺序，以便我可以重用原始数据帧中的索引吗？

df = pd.DataFrame(...)
df2 = pca.fit_transform(df)
df2.index = df.index

Run Code Online (Sandbox Code Playgroud)

此外，还有比这样做更好（更安全）的方法吗？

pandas scikit-learn

Mar*_*rko

lucky-day

6
推荐指数

1
解决办法

4751
查看次数

在多列上应用窗口函数

我想执行窗口函数（具体来说是移动平均），但要在数据帧的所有列上执行。

我可以这样做

from pyspark.sql import SparkSession, functions as func

df = ...

df.select([func.avg(df[col]).over(windowSpec).alias(col) for col in df.columns])

Run Code Online (Sandbox Code Playgroud)

但恐怕这不是很有效。有没有更好的方法来做到这一点？

apache-spark apache-spark-sql

Mar*_*rko

2020 11-12

6
推荐指数

1
解决办法

2333
查看次数

标签统计

hadoop ×3

apache-spark ×2

pandas ×2

python ×2

algorithm ×1

amazon-ec2 ×1

amazon-emr ×1

amazon-s3 ×1

amazon-web-services ×1

apache-kafka ×1

apache-spark-ml ×1

apache-spark-mllib ×1

apache-spark-sql ×1

c# ×1

context-free-grammar ×1

correlation ×1

flume ×1

ll-grammar ×1

mapreduce ×1

nan ×1

parsing ×1

plot ×1

scikit-learn ×1

time-series ×1

小编Mar_rko的帖子

相关热图

LL(1)解析器中FIRST和FOLLOW的目的是什么？

制作距离矩阵或重复计算距离

Spark MLlib和Spark ML中的PCA

S3和EMR数据位置

为什么Tuple或KeyValueItem没有setter？

使用Kafka将数据导入Hadoop

如何不绘制缺失的经期

应用sklearn时保留pandas索引

在多列上应用窗口函数

标签统计

标签 统计

小编Mar_rko的帖子

标签统计