小编HHH*_*HHH的帖子

如何在Hadoop程序中的映射器中获取输入文件名?

如何在映射器中获取输入文件的名称?我有多个输入文件存储在输入目录中,每个映射器可能会读取不同的文件,我需要知道映射器已读取的文件.

hadoop mapreduce

41
推荐指数
4
解决办法
4万
查看次数

如何找出 docker 镜像的基础镜像

我有一个 docker 镜像,我想知道它是从哪个镜像创建的。当然有多个层,但我想找出最后一个图像(该图像的dockerfile中的FROM语句)?

我尝试使用docker image historydocker image inspect但在那里找不到此信息。

我尝试使用以下命令,但它给了我一条错误消息

alias dfimage="sudo docker run -v /var/run/docker.sock:/var/run/docker.sock --rm xyz/mm:9e945ff"
dfimage febae8978318
Run Code Online (Sandbox Code Playgroud)

这是我收到的错误消息

container_linux.go:235: starting container process caused "exec: \"febae8978318\": executable file not found in $PATH"
/usr/bin/docker-current: Error response from daemon: oci runtime error: container_linux.go:235: starting container process caused "exec: \"febae8978318\": executable file not found in $PATH".
Run Code Online (Sandbox Code Playgroud)

docker

26
推荐指数
3
解决办法
2万
查看次数

如何使用TIka读取大文件?

我正在使用Tika解析大型pdf和word文档,但我得到了他的错误消息.

Your document contained more than 100000 characters, and so your requested limit has been reached. To receive the full text of the document, increase your limit. (Text up to the limit is however available).
Run Code Online (Sandbox Code Playgroud)

我怎样才能增加限额?

apache-tika

14
推荐指数
2
解决办法
6234
查看次数

如何在Hadoop中拆分数据

Hadoop是否根据程序中设置的映射器数量拆分数据?也就是说,如果映射器的数量为200(假设Hadoop集群同时允许200个映射器),则拥有大小为500MB的数据集,每个映射器是否给出了2.5 MB的数据?

此外,所有的映射器是否同时运行,或者其中一些可能会串行运行?

hadoop mapreduce hadoop-partitioning

11
推荐指数
3
解决办法
1万
查看次数

是否有一种根据Jaccard相似性对图表进行聚类的有效方法?

有没有一种有效的方法来使用Jaccard相似性来集群图中的节点,使得每个集群至少具有K节点?

节点之间的Jaccard相似ij:
我们S是集合的邻居iT是集合邻居j.然后之间的相似性ij由下式给出 |(S ? T)| / |(S ? T)|.

algorithm cluster-analysis hierarchical-clustering graph-algorithm

8
推荐指数
1
解决办法
524
查看次数

Spark中的减速机概念

我来自Hadoop背景,对Spark的知识有限.根据我到目前为止学到的东西,Spark没有mapper/reducer节点,而是有驱动程序/工作节点.worker与mapper类似,驱动程序(不知何故)类似于reducer.因为只有一个驱动程序,所以会有一个减速器.如果是这样,那些非常大的数据集的单词计数如何简单可以在spark中完成?因为驱动程序可能只是耗尽内存.

apache-spark

8
推荐指数
1
解决办法
3541
查看次数

如何_ts在DocumentDB中更改

我对documentdb中的_ts字段有疑问.它是如何确定的?我的理解是,当添加/更改文档时,它会获得一个新的_ts.两个文件是否有相同的_ts?如果是这样,只有在确切时间(以毫秒为单位)添加这些文档时才会发生.

azure-cosmosdb

8
推荐指数
1
解决办法
6137
查看次数

registerTempTable会导致表被缓存吗?

我有一个sql语句查询,它在许多字段上执行分组.它使用的表也很大(大小为4TB).我正在将表注册为临时表.但是当我将它注册为临时表时,我不知道表是否被缓存?如果我将查询转换为Scala函数(例如df.groupby().aggr()...)而不是将其作为sql语句,我也不知道它是否更高效.对此有何帮助?

apache-spark apache-spark-sql

8
推荐指数
1
解决办法
5116
查看次数

如何为pandas中的每组做前向填充

我有一个类似于下面的数据框

id A   B   C   D E
1  2   3   4   5 5
1  NaN 4   NaN 6 7
2  3   4   5   6 6
2  NaN NaN 5   4 1
Run Code Online (Sandbox Code Playgroud)

我想为列做一个空值估算ABC在正向充填,但每个组。这意味着,我希望向前填充应用于每个id. 我怎样才能做到这一点?

python pandas imputation

7
推荐指数
1
解决办法
7245
查看次数

如何在 Jenkins 管道中使用多个 docker 存储库

我有一个 Jenkins 管道,我需要在其中登录到两个不同的 docker 存储库。我知道如何使用以下命令对一个 repo 进行身份验证

docker.withRegistry('https://registry.example.com', 'credentials-id')
Run Code Online (Sandbox Code Playgroud)

但不知道如何处理超过 1 个回购?

jenkins docker jenkins-pipeline

7
推荐指数
2
解决办法
1176
查看次数