标签: biginsights

如果不存在,如何让hadoop创建目录

我一直在使用Cloudera的hadoop(0.20.2).使用此版本,如果我将文件放入文件系统,但目录结构不存在,则会自动创建父目录:

例如,如果我在hdfs和typed中没有目录:

hadoop fs -put myfile.txt /some/non/existing/path/myfile.txt

它将创建所有目录:some,non,existing和path并将文件放在那里.

现在,随着更新的hadoop(2.2.0)产品的出现,这种自动创建的目录不会发生.上面的相同命令产生:

put:`/ some/non/existing/path /':没有这样的文件或目录

我有一个解决方法,首先只做hadoop fs -mkdir,每次放置,但这不会很好.

这是可配置的吗？有什么建议？

hadoop put hdfs cloudera biginsights

owl*_*wly

2014 05-08

22
推荐指数

1
解决办法

4万
查看次数

如何在HDFS中将数据帧中的数据写入单个.parquet文件（单个文件中的数据和元数据）？

df.show() --> 2 rows
+------+--------------+----------------+
| name|favorite_color|favorite_numbers|
+------+--------------+----------------+
|Alyssa| null| [3, 9, 15, 20]| | Ben| red| []|
+------+--------------+----------------+

Run Code Online (Sandbox Code Playgroud)

df.rdd.getNumPartitions() -它有1个分区

>>> df.rdd.getNumPartitions()

Run Code Online (Sandbox Code Playgroud)

1个

df.write.save("/user/hduser/data_check/test.parquet", format="parquet")

Run Code Online (Sandbox Code Playgroud)

如果我使用上面的命令在HDFS中创建镶木地板文件，则它是在该目录"payloads.parquet"中HDFS和该目录中创建目录的多个.parquet文件，元数据文件正在保存。

找到4项

-rw-r--r-- 3 bimodjoul biusers 0 2017-03-15 06:47 
/user/hduser/data_check/test.parquet/_SUCCESS 
-rw-r--r-- 3 bimodjoul biusers 494 2017-03-15 06:47
/user/hduser/data_check/test.parquet/_common_metadata
-rw-r--r-- 3 bimodjoul biusers 862 2017-03-15 06:47
/user/hduser/data_check/test.parquet/_metadata 
-rw-r--r-- 3 bimodjoul biusers 885 2017-03-15 06:47
/user/hduser/data_check/test.parquet/part-r-00000-f83a2ffd-38bb-4c76-9f4c-357e43d9708b.gz.parquet

Run Code Online (Sandbox Code Playgroud)

如何将数据帧中的数据写入单个.parquet文件（单个文件中的数据和元数据）HDFS而不是包含多个文件的文件夹中？

帮助将不胜感激。

biginsights apache-spark apache-spark-sql pyspark pyspark-sql

Shi*_*Ram

2017 03-15

6
推荐指数

1
解决办法

2581
查看次数

IBM BigInsights(IBM Hadoop)与IBM Watson

IBM Watson和IBM Inforsphere BigInsights(IBM Hadoop)/ Streams有什么区别？沃森给BigInsights不会带来什么？

stream biginsights ibm-watson

Ami*_* HZ

2017 06-25

4
推荐指数

1
解决办法

2238
查看次数

“Hadoop 发行版”是什么意思

我是 hadoop 新手。我最近阅读了 Apache Hadoop、Pig、Hive、HBase 的基础知识。然后我遇到了“Hadoop 发行版”这个术语，例子有 Cloudera、MAPR、HortonWorks。那么 Apache Hadoop（及其回显系统）与“Hadoop 发行版”的关系是什么？

是否像Java虚拟机规范（文档）和Oracle JVM、IBM JVM（文档的工作实现）？但我们从 Apache 获得 zip，它们实际上是逻辑实现的。

所以我有点困惑。

hadoop software-distribution cloudera mapr biginsights

Kau*_*ele

2016 02-20

4
推荐指数

1
解决办法

986
查看次数

通过Java API/Python访问gpfs文件

我是IBM-GPFS的新手.因为我们可以通过Java API,python脚本来访问HDFS.有没有类似的方法来访问GPFS文件？请建议我的解决方案.

biginsights

Viv*_*mje

lucky-day

2
推荐指数

1
解决办法

554
查看次数

在 Bluemix 的 BigInsights 集群中安装 H2O ai R 包时出错

我在 Bluemix 中有一个 5 节点 BigInsights hadoop 集群。当我尝试在 BigInsights 集群中安装 H2O ai R 时出现错误。

install.packages("h2o", type="source", repos=(c(" http://h2o-release.s3.amazonaws.com/h2o/rel-turing/3/R ")))

ERROR: dependencies ‘statmod’, ‘RCurl’, ‘jsonlite’ are not available for package ‘h2o’
* removing ‘/home/opus/R/x86_64-redhat-linux-gnu-library/3.3/h2o’

The downloaded source packages are in
        ‘/tmp/RtmpJmcuyB/downloaded_packages’
Warning message:
In install.packages("h2o", type = "source", repos = (c("http://h2o-release.s3.amazonaws.com/h2o/rel-turing/3/R"))) :
  installation of package ‘h2o’ had non-zero exit status

Run Code Online (Sandbox Code Playgroud)

当我尝试在 BigInsights 集群中安装 R 的“RCurl”包时，收到如下错误消息：

trying URL 'https://cran.fhcrc.org/src/contrib/RCurl_1.95-4.8.tar.gz'
Content type 'application/x-gzip' length 916934 bytes (895 KB)
==================================================
downloaded 895 KB

* …

Run Code Online (Sandbox Code Playgroud)

linux r biginsights h2o ibm-cloud

Par*_*rgu

2016 08-23

2
推荐指数

1
解决办法

282
查看次数

Spark Hive 报告 pyspark.sql.utils.AnalysisException: u'Table not found: XXX' 在纱线集群上运行时

我正在尝试在访问 Hive 表的 Cloud 4.2 Enterprise 上的 BigInsights 上运行 pyspark 脚本。

首先我创建 hive 表：

[biadmin@bi4c-xxxxx-mastermanager ~]$ hive
hive> CREATE TABLE pokes (foo INT, bar STRING);
OK
Time taken: 2.147 seconds
hive> LOAD DATA LOCAL INPATH '/usr/iop/4.2.0.0/hive/doc/examples/files/kv1.txt' OVERWRITE INTO TABLE pokes;
Loading data to table default.pokes
Table default.pokes stats: [numFiles=1, numRows=0, totalSize=5812, rawDataSize=0]
OK
Time taken: 0.49 seconds
hive>

Run Code Online (Sandbox Code Playgroud)

然后我创建了一个简单的 pyspark 脚本：

[biadmin@bi4c-xxxxxx-mastermanager ~]$ cat test_pokes.py
from pyspark import SparkContext

sc = SparkContext()

from pyspark.sql import HiveContext
hc = HiveContext(sc)

pokesRdd …

Run Code Online (Sandbox Code Playgroud)

hive hadoop-yarn biginsights apache-spark ibm-cloud

Chr*_*now

2017 05-23

1
推荐指数

1
解决办法

2万
查看次数