我一直在使用Cloudera的hadoop(0.20.2).使用此版本,如果我将文件放入文件系统,但目录结构不存在,则会自动创建父目录:
例如,如果我在hdfs和typed中没有目录:
hadoop fs -put myfile.txt /some/non/existing/path/myfile.txt
它将创建所有目录:some,non,existing和path并将文件放在那里.
现在,随着更新的hadoop(2.2.0)产品的出现,这种自动创建的目录不会发生.上面的相同命令产生:
put:`/ some/non/existing/path /':没有这样的文件或目录
我有一个解决方法,首先只做hadoop fs -mkdir,每次放置,但这不会很好.
这是可配置的吗?有什么建议?
如何在HDFS中将数据帧中的数据写入单个.parquet文件(单个文件中的数据和元数据)?
df.show() --> 2 rows
+------+--------------+----------------+
| name|favorite_color|favorite_numbers|
+------+--------------+----------------+
|Alyssa| null| [3, 9, 15, 20]| | Ben| red| []|
+------+--------------+----------------+
Run Code Online (Sandbox Code Playgroud)
df.rdd.getNumPartitions() -它有1个分区
>>> df.rdd.getNumPartitions()
Run Code Online (Sandbox Code Playgroud)
1个
df.write.save("/user/hduser/data_check/test.parquet", format="parquet")
Run Code Online (Sandbox Code Playgroud)
如果我使用上面的命令在HDFS中创建镶木地板文件,则它是在该目录"payloads.parquet"中HDFS和该目录中创建目录的多个.parquet文件,元数据文件正在保存。
找到4项
-rw-r--r-- 3 bimodjoul biusers 0 2017-03-15 06:47
/user/hduser/data_check/test.parquet/_SUCCESS
-rw-r--r-- 3 bimodjoul biusers 494 2017-03-15 06:47
/user/hduser/data_check/test.parquet/_common_metadata
-rw-r--r-- 3 bimodjoul biusers 862 2017-03-15 06:47
/user/hduser/data_check/test.parquet/_metadata
-rw-r--r-- 3 bimodjoul biusers 885 2017-03-15 06:47
/user/hduser/data_check/test.parquet/part-r-00000-f83a2ffd-38bb-4c76-9f4c-357e43d9708b.gz.parquet
Run Code Online (Sandbox Code Playgroud)
如何将数据帧中的数据写入单个.parquet文件(单个文件中的数据和元数据)HDFS而不是包含多个文件的文件夹中?
帮助将不胜感激。
biginsights apache-spark apache-spark-sql pyspark pyspark-sql
IBM Watson和IBM Inforsphere BigInsights(IBM Hadoop)/ Streams有什么区别?沃森给BigInsights不会带来什么?
我是 hadoop 新手。我最近阅读了 Apache Hadoop、Pig、Hive、HBase 的基础知识。然后我遇到了“Hadoop 发行版”这个术语,例子有 Cloudera、MAPR、HortonWorks。那么 Apache Hadoop(及其回显系统)与“Hadoop 发行版”的关系是什么?
是否像Java虚拟机规范(文档)和Oracle JVM、IBM JVM(文档的工作实现)?但我们从 Apache 获得 zip,它们实际上是逻辑实现的。
所以我有点困惑。
我是IBM-GPFS的新手.因为我们可以通过Java API,python脚本来访问HDFS.有没有类似的方法来访问GPFS文件?请建议我的解决方案.
我在 Bluemix 中有一个 5 节点 BigInsights hadoop 集群。当我尝试在 BigInsights 集群中安装 H2O ai R 时出现错误。
install.packages("h2o", type="source", repos=(c(" http://h2o-release.s3.amazonaws.com/h2o/rel-turing/3/R ")))
ERROR: dependencies ‘statmod’, ‘RCurl’, ‘jsonlite’ are not available for package ‘h2o’
* removing ‘/home/opus/R/x86_64-redhat-linux-gnu-library/3.3/h2o’
The downloaded source packages are in
‘/tmp/RtmpJmcuyB/downloaded_packages’
Warning message:
In install.packages("h2o", type = "source", repos = (c("http://h2o-release.s3.amazonaws.com/h2o/rel-turing/3/R"))) :
installation of package ‘h2o’ had non-zero exit status
Run Code Online (Sandbox Code Playgroud)
当我尝试在 BigInsights 集群中安装 R 的“RCurl”包时,收到如下错误消息:
trying URL 'https://cran.fhcrc.org/src/contrib/RCurl_1.95-4.8.tar.gz'
Content type 'application/x-gzip' length 916934 bytes (895 KB)
==================================================
downloaded 895 KB
* …Run Code Online (Sandbox Code Playgroud) 我正在尝试在访问 Hive 表的 Cloud 4.2 Enterprise 上的 BigInsights 上运行 pyspark 脚本。
首先我创建 hive 表:
[biadmin@bi4c-xxxxx-mastermanager ~]$ hive
hive> CREATE TABLE pokes (foo INT, bar STRING);
OK
Time taken: 2.147 seconds
hive> LOAD DATA LOCAL INPATH '/usr/iop/4.2.0.0/hive/doc/examples/files/kv1.txt' OVERWRITE INTO TABLE pokes;
Loading data to table default.pokes
Table default.pokes stats: [numFiles=1, numRows=0, totalSize=5812, rawDataSize=0]
OK
Time taken: 0.49 seconds
hive>
Run Code Online (Sandbox Code Playgroud)
然后我创建了一个简单的 pyspark 脚本:
[biadmin@bi4c-xxxxxx-mastermanager ~]$ cat test_pokes.py
from pyspark import SparkContext
sc = SparkContext()
from pyspark.sql import HiveContext
hc = HiveContext(sc)
pokesRdd …Run Code Online (Sandbox Code Playgroud) biginsights ×7
apache-spark ×2
cloudera ×2
hadoop ×2
ibm-cloud ×2
h2o ×1
hadoop-yarn ×1
hdfs ×1
hive ×1
ibm-watson ×1
linux ×1
mapr ×1
put ×1
pyspark ×1
pyspark-sql ×1
r ×1
stream ×1