标签: biginsights

如果不存在,如何让hadoop创建目录

我一直在使用Cloudera的hadoop(0.20.2).使用此版本,如果我将文件放入文件系统,但目录结构不存在,则会自动创建父目录:

例如,如果我在hdfs和typed中没有目录:

hadoop fs -put myfile.txt /some/non/existing/path/myfile.txt

它将创建所有目录:some,non,existingpath并将文件放在那里.

现在,随着更新的hadoop(2.2.0)产品的出现,这种自动创建的目录不会发生.上面的相同命令产生:

put:`/ some/non/existing/path /':没有这样的文件或目录

我有一个解决方法,首先只做hadoop fs -mkdir,每次放置,但这不会很好.

这是可配置的吗?有什么建议?

hadoop put hdfs cloudera biginsights

22
推荐指数
1
解决办法
4万
查看次数

如何在HDFS中将数据帧中的数据写入单个.parquet文件(单个文件中的数据和元数据)?

如何在HDFS中将数据帧中的数据写入单个.parquet文件(单个文件中的数据和元数据)?

df.show() --> 2 rows
+------+--------------+----------------+
| name|favorite_color|favorite_numbers|
+------+--------------+----------------+
|Alyssa| null| [3, 9, 15, 20]| | Ben| red| []|
+------+--------------+----------------+
Run Code Online (Sandbox Code Playgroud)

df.rdd.getNumPartitions() -它有1个分区

>>> df.rdd.getNumPartitions()
Run Code Online (Sandbox Code Playgroud)

1个

df.write.save("/user/hduser/data_check/test.parquet", format="parquet")
Run Code Online (Sandbox Code Playgroud)

如果我使用上面的命令在HDFS中创建镶木地板文件,则它是在该目录"payloads.parquet"HDFS和该目录中创建目录的多个.parquet文件,元数据文件正在保存。

找到4项

-rw-r--r-- 3 bimodjoul biusers 0 2017-03-15 06:47 
/user/hduser/data_check/test.parquet/_SUCCESS 
-rw-r--r-- 3 bimodjoul biusers 494 2017-03-15 06:47
/user/hduser/data_check/test.parquet/_common_metadata
-rw-r--r-- 3 bimodjoul biusers 862 2017-03-15 06:47
/user/hduser/data_check/test.parquet/_metadata 
-rw-r--r-- 3 bimodjoul biusers 885 2017-03-15 06:47
/user/hduser/data_check/test.parquet/part-r-00000-f83a2ffd-38bb-4c76-9f4c-357e43d9708b.gz.parquet
Run Code Online (Sandbox Code Playgroud)

如何将数据帧中的数据写入单个.parquet文件(单个文件中的数据和元数据)HDFS而不是包含多个文件的文件夹中?

帮助将不胜感激。

biginsights apache-spark apache-spark-sql pyspark pyspark-sql

6
推荐指数
1
解决办法
2581
查看次数

IBM BigInsights(IBM Hadoop)与IBM Watson

IBM Watson和IBM Inforsphere BigInsights(IBM Hadoop)/ Streams有什么区别?沃森给BigInsights不会带来什么?

stream biginsights ibm-watson

4
推荐指数
1
解决办法
2238
查看次数

“Hadoop 发行版”是什么意思

我是 hadoop 新手。我最近阅读了 Apache Hadoop、Pig、Hive、HBase 的基础知识。然后我遇到了“Hadoop 发行版”这个术语,例子有 Cloudera、MAPR、HortonWorks。那么 Apache Hadoop(及其回显系统)与“Hadoop 发行版”的关系是什么?

是否像Java虚拟机规范(文档)和Oracle JVM、IBM JVM(文档的工作实现)?但我们从 Apache 获得 zip,它们实际上是逻辑实现的。

所以我有点困惑。

hadoop software-distribution cloudera mapr biginsights

4
推荐指数
1
解决办法
986
查看次数

通过Java API/Python访问gpfs文件

我是IBM-GPFS的新手.因为我们可以通过Java API,python脚本来访问HDFS.有没有类似的方法来访问GPFS文件?请建议我的解决方案.

biginsights

2
推荐指数
1
解决办法
554
查看次数

在 Bluemix 的 BigInsights 集群中安装 H2O ai R 包时出错

我在 Bluemix 中有一个 5 节点 BigInsights hadoop 集群。当我尝试在 BigInsights 集群中安装 H2O ai R 时出现错误。

install.packages("h2o", type="source", repos=(c(" http://h2o-release.s3.amazonaws.com/h2o/rel-turing/3/R ")))

ERROR: dependencies ‘statmod’, ‘RCurl’, ‘jsonlite’ are not available for package ‘h2o’
* removing ‘/home/opus/R/x86_64-redhat-linux-gnu-library/3.3/h2o’

The downloaded source packages are in
        ‘/tmp/RtmpJmcuyB/downloaded_packages’
Warning message:
In install.packages("h2o", type = "source", repos = (c("http://h2o-release.s3.amazonaws.com/h2o/rel-turing/3/R"))) :
  installation of package ‘h2o’ had non-zero exit status
Run Code Online (Sandbox Code Playgroud)

当我尝试在 BigInsights 集群中安装 R 的“RCurl”包时,收到如下错误消息:

trying URL 'https://cran.fhcrc.org/src/contrib/RCurl_1.95-4.8.tar.gz'
Content type 'application/x-gzip' length 916934 bytes (895 KB)
==================================================
downloaded 895 KB

* …
Run Code Online (Sandbox Code Playgroud)

linux r biginsights h2o ibm-cloud

2
推荐指数
1
解决办法
282
查看次数

Spark Hive 报告 pyspark.sql.utils.AnalysisException: u'Table not found: XXX' 在纱线集群上运行时

我正在尝试在访问 Hive 表的 Cloud 4.2 Enterprise 上的 BigInsights 上运行 pyspark 脚本。

首先我创建 hive 表:

[biadmin@bi4c-xxxxx-mastermanager ~]$ hive
hive> CREATE TABLE pokes (foo INT, bar STRING);
OK
Time taken: 2.147 seconds
hive> LOAD DATA LOCAL INPATH '/usr/iop/4.2.0.0/hive/doc/examples/files/kv1.txt' OVERWRITE INTO TABLE pokes;
Loading data to table default.pokes
Table default.pokes stats: [numFiles=1, numRows=0, totalSize=5812, rawDataSize=0]
OK
Time taken: 0.49 seconds
hive> 
Run Code Online (Sandbox Code Playgroud)

然后我创建了一个简单的 pyspark 脚本:

[biadmin@bi4c-xxxxxx-mastermanager ~]$ cat test_pokes.py
from pyspark import SparkContext

sc = SparkContext()

from pyspark.sql import HiveContext
hc = HiveContext(sc)

pokesRdd …
Run Code Online (Sandbox Code Playgroud)

hive hadoop-yarn biginsights apache-spark ibm-cloud

1
推荐指数
1
解决办法
2万
查看次数