小编dyk*_*ykw的帖子

HDFS中的数据块大小,为什么是64MB？

HDFS/hadoop的默认数据块大小为64MB.磁盘中的块大小通常为4KB.64MB块大小是什么意思？ - >这是否意味着从磁盘读取的最小单位是64MB？

如果是,那么这样做有什么好处？ - >在HDFS中连续访问大文件很容易吗？

我们可以通过在磁盘中使用原始的4KB块大小来做同样的事情吗？

database hadoop mapreduce block hdfs

dyk*_*ykw

lucky-day

43
推荐指数

2
解决办法

7万
查看次数

检查MongoDB php驱动程序版本

几个月前我在我的Linux机器上安装了MongoDB PHP驱动程序.现在,我想知道我安装的驱动程序版本.我怎样才能找到这些信息？

php unix mongodb

dyk*_*ykw

2015 05-01

10
推荐指数

4
解决办法

2万
查看次数

spark（2.3或新版本）如何确定读取gsbucket或hdfs中hive表文件的任务数？

输入数据：

包含 35 个文件的配置单元表 (T)（每个文件约 1.5GB，SequenceFile）
文件在 gs 存储桶中
默认 fs.gs.block.size=~128MB
所有其他参数都是默认值

实验一：

创建一个有 2 个工人的 dataproc（每个工人 4 个核心）
运行 select count(*) from T;

实验一结果：

创建了约 650 个任务来读取 hive 表文件
每个任务读取 ~85MB 数据

实验二：

创建一个具有 64 个工人的数据过程（每个工人 4 个核心）
运行 select count(*) from T;

实验二结果：

创建了大约 24,480 个任务来读取 hive 表文件
每个任务读取 ~2.5MB 数据（在我看来，1 个任务读取 2.5MB 数据不是一个好主意，因为打开文件的时间可能比读取 2.5MB 的时间长。）

Q1：知道 spark 如何确定读取 hive 表数据文件的任务数吗？ 我通过将相同的数据放入 hdfs 来重复相同的实验，我得到了类似的结果。

我的理解是读取hive表文件的任务数应该与hdfs中的块数相同。Q2：正确吗？ Q3：当数据在 gs 存储桶（而不是 hdfs）中时，这是否也正确？

提前致谢！

hadoop hive apache-spark google-cloud-dataproc

dyk*_*ykw

2020 10-17

6
推荐指数

1
解决办法

202
查看次数

为什么不使用B + -Tree MongoDB

有谁知道为什么MongoDB使用B-Tree但不使用B + -Tree？

据我所知，大多数DBMS使用B + -Tree。MongoDB使用B树有什么特殊原因吗？

谢谢。

b-tree geospatial mongodb spatial-index

dyk*_*ykw

lucky-day

5
推荐指数

1
解决办法

758
查看次数

java比特移位循环吗？

我有使用Java的这种行为:

int b=16;
System.out.println(b<<30);
System.out.println(b<<31);
System.out.println(b<<32);
System.out.println(b<<33);

Run Code Online (Sandbox Code Playgroud)

输出:0 0 16 32

java位移位循环吗？如果没有,为什么我在b << 30和16时b <32时得到0？

java bit-manipulation bit-shift

dyk*_*ykw

2016 01-07

5
推荐指数

2
解决办法

912
查看次数

使用fscanf读取double

我想从文本文件中读取双倍,例如31 39.9316476397222 116.113516352222

我尝试了两种,而不是工作.我只能读取前几个十进制数字例如39.93164而不是39.9316476397222谁知道为什么？谢谢!

int NodeID;
double _lat,_long;
fscanf (pFile, "%d %lf %lf", &NodeID,&_lat,&_long);
printf ("I have read: %d %f %f\n", NodeID,_lat,_long);

fscanf (pFile, "%d %lf %lf", &NodeID,&_lat,&_long);
printf ("I have read: %d %lf %lf\n", NodeID,_lat,_long);

Run Code Online (Sandbox Code Playgroud)

c c++ file scanf

dyk*_*ykw

2013 07-25

2
推荐指数

2
解决办法

2万
查看次数

标签统计

hadoop ×2

mongodb ×2

apache-spark ×1

b-tree ×1

bit-manipulation ×1

bit-shift ×1

block ×1

c ×1

c++ ×1

database ×1

file ×1

geospatial ×1

google-cloud-dataproc ×1

hdfs ×1

hive ×1

java ×1

mapreduce ×1

php ×1

scanf ×1

spatial-index ×1

unix ×1

HDFS中的数据块大小,为什么是64MB？

检查MongoDB php驱动程序版本

spark（2.3或新版本）如何确定读取gsbucket或hdfs中hive表文件的任务数？

为什么不使用B + -Tree MongoDB

java比特移位循环吗？

使用fscanf读取double

标签 统计

小编dyk_ykw的帖子

标签统计