标签: data-science-experience

我如何阅读从Spark编写的PySpark中的镶木地板?

我在分析中使用两个Jupyter笔记本来做不同的事情.在我的Scala笔记本中,我将一些已清理的数据写入镶木地板:

partitionedDF.select("noStopWords","lowerText","prediction").write.save("swift2d://xxxx.keystone/commentClusters.parquet")
Run Code Online (Sandbox Code Playgroud)

然后我去我的Python笔记本读取数据:

df = spark.read.load("swift2d://xxxx.keystone/commentClusters.parquet")
Run Code Online (Sandbox Code Playgroud)

我收到以下错误:

AnalysisException: u'Unable to infer schema for ParquetFormat at swift2d://RedditTextAnalysis.keystone/commentClusters.parquet. It must be specified manually;'
Run Code Online (Sandbox Code Playgroud)

我查看了spark文档,我认为不应该要求我指定一个模式.有没有人碰到这样的事情?我保存/加载时应该做些什么吗?数据将在对象存储中登陆.

编辑:我在读取和写入时都会唱出spark 2.0.

edit2:这是在Data Science Experience的一个项目中完成的.

python scala apache-spark pyspark data-science-experience

25
推荐指数
2
解决办法
4万
查看次数

ValueError:无效的端点:s3-api.xxxx.objectstorage.service.networklayer.com

我正在尝试访问我的 Watson Data Platform 目录中的 csv 文件。我使用了 DSX 笔记本中的代码生成功能:Insert to code> Insert StreamingBody object

生成的代码是:

import os
import types
import pandas as pd
import boto3

def __iter__(self): return 0

# @hidden_cell
# The following code accesses a file in your IBM Cloud Object Storage. It includes your credentials.
# You might want to remove those credentials before you share your notebook.

os.environ['AWS_ACCESS_KEY_ID'] = '******'
os.environ['AWS_SECRET_ACCESS_KEY'] = '******'
endpoint = 's3-api.us-geo.objectstorage.softlayer.net'

bucket = 'catalog-test'

cos_12345 = boto3.resource('s3', endpoint_url=endpoint) …
Run Code Online (Sandbox Code Playgroud)

python data-science-experience ibm-cloud

6
推荐指数
1
解决办法
2390
查看次数

无法连接到 Cloud 对象存储实例 IBM Watson Studio

我正在尝试从 IBM Watson Studio 连接到 COS,但出现错误...

在此处输入图片说明

当我按 Enter 时,出现以下错误:

Unable to find products data_catalog or data_science_experience in the 
entitlements response for account id: 51373fa1b8bf36fd9d78574d19af0d11.
Run Code Online (Sandbox Code Playgroud)

ibm-watson data-science-experience ibm-cloud-storage watson-studio

5
推荐指数
0
解决办法
208
查看次数

如何在 Watson Studio 中使用 Insert to Code 从 StreamingBody 对象加载数据到 Pandas?

Insert to Code功能使您能够在 Watson Studio 中的 Jupyter 笔记本中工作时访问存储在 Cloud Object Storage 中的数据。某些文件类型(例如 txt 文件)将只有 StreamingBody 和 Credentials 作为插入代码选项:

插入代码功能的屏幕截图

如何使用StreamingBody对象访问我的数据?

pandas jupyter-notebook data-science-experience watson-studio

4
推荐指数
1
解决办法
1591
查看次数

将csv写入来自DSX python 2.7 notebook的Ibm bluemix对​​象存储

我正在尝试从DSX Python笔记本中将pandas数据帧作为CSV写入Bluemix对​​象存储.我首先将数据帧保存为"本地"CSV文件.然后我有一个例程尝试将文件写入对象存储.我得到413响应 - 对象太大了.该文件只有大约3MB.这是我的代码,基于我在这里找到的JSON示例:http://datascience.ibm.com/blog/working-with-object-storage-in-data-science-experience-python-edition/

import requests

def put_file(credentials, local_file_name):  
    """This function writes file content to Object Storage V3 """
    url1 = ''.join(['https://identity.open.softlayer.com', '/v3/auth/tokens'])
    data = {'auth': {'identity': {'methods': ['password'],
        'password': {'user': {'name': credentials['name'],'domain': {'id': credentials['domain']},
        'password': credentials['password']}}}}}
    headers = {'Content-Type': 'text/csv'}
    with open(local_file_name, 'rb') as f:
        resp1 = requests.post(url=url1, data=f, headers=headers)
    return resp1  
Run Code Online (Sandbox Code Playgroud)

非常感谢任何帮助或指示.

data-science-experience dsx ibm-cloud

2
推荐指数
1
解决办法
1307
查看次数

2
推荐指数
1
解决办法
1659
查看次数

!pip install nltk - >权限被拒绝

我正在尝试使用以下notebook命令安装nltk:

!pip install nltk
Run Code Online (Sandbox Code Playgroud)

但是,这会引发以下错误:

error: could not create '/usr/local/src/bluemix_ipythonspark_141/notebook/lib/python2.7/site-packages/nltk': 
Permission denied
Run Code Online (Sandbox Code Playgroud)

如何从Jupyter笔记本安装nltk?请注意,bluemix上的spark环境只能通过笔记本访问.她无法进入环境.

nltk apache-spark jupyter data-science-experience ibm-cloud

1
推荐指数
1
解决办法
1105
查看次数

如何在IBM的Spark服务上列出预安装的Python包

在Python笔记本中,我可以执行!pip freeze以获取已安装软件包的列表.但结果是一个空列表,或者只显示我自己安装的几个包.几周前,该命令将返回所有软件包的列表,包括IBM预安装的软件包.我怎样才能获得完整列表?

python apache-spark data-science-experience ibm-cloud watson-studio

1
推荐指数
1
解决办法
297
查看次数

如何设置 checkpiont dir PySpark Data Science Experience

你能帮我说明如何为 IBM 的数据科学体验中的 PySpark 会话设置检查点目录吗?。

需要是因为我必须connectedComponents()从 GraphFrames运行它会引发以下错误

Py4JJavaError: An error occurred while calling o221.run.
: java.io.IOException: Checkpoint directory is not set. Please set it first using sc.setCheckpointDir(). 
Run Code Online (Sandbox Code Playgroud)

pyspark data-science-experience

1
推荐指数
1
解决办法
3365
查看次数

install.packages("tm") - >"依赖'slam'不可用"

我正在尝试tm在IBM的数据科学体验(DSX)上安装该软件包:

install.packages("tm")
Run Code Online (Sandbox Code Playgroud)

但是,我正在解决这个问题:

"dependency 'slam' is not available"
Run Code Online (Sandbox Code Playgroud)

这篇文章表明R版本3.3.1 will解决了这个问题,但是DSX上的R版本是:R version 3.3.0 (2016-05-03)

如何在IBM DSX上解决此问题?请注意,您在DSX上没有root访问权限.

我在stackoverflow上看到了类似的问题,但没有人问如何解决IBM DSX上的问题,例如在安装TM软件包时依赖'slam'不可用


更新:

install.packages("slam")
Run Code Online (Sandbox Code Playgroud)

返回:

Installing package into '/gpfs/global_fs01/sym_shared/YPProdSpark/user/s85d-88ebffb000cc3e-39ca506ba762/R/libs'
(as 'lib' is unspecified)
Warning message:
"package 'slam' is not available (for R version 3.3.0)"
Run Code Online (Sandbox Code Playgroud)

r tm data-science-experience dsx ibm-cloud

0
推荐指数
1
解决办法
5856
查看次数