小编Kei*_*thx的帖子

使用Pyspark和Hive显示特定数据库中的表

在Hive实例中包含一些数据库和表.我想显示一些特定数据库的表(比方说3_db).

+------------------+--+
|  database_name   |
+------------------+--+
| 1_db             |
| 2_db             |
| 3_db             |
+------------------+--+
Run Code Online (Sandbox Code Playgroud)

如果我从bash进入beeline - 那里没什么复杂的,我只是做以下事情:

show databases;
show tables from 3_db;
Run Code Online (Sandbox Code Playgroud)

当我通过ipython notebeook使用pyspark时 - 我的廉价技巧在那里不起作用并在第二行(显示来自3_db的表)给我错误:

sqlContext.sql('show databases').show()
sqlContext.sql('show tables from 3_db').show()
Run Code Online (Sandbox Code Playgroud)

什么似乎是错的,为什么相同的代码在一个地方工作而在另一个地方不起作用?

python hive apache-spark pyspark beeline

11
推荐指数
3
解决办法
2万
查看次数

将Numpy数组按列转换为Pandas DataFrame(作为单行)

我有一个看起来像这样的numpy数组:

a = np.array([35,2,160,56,120,80,1,1,0,0,1])
Run Code Online (Sandbox Code Playgroud)

然后我试图将该数组转换为具有逻辑"一列一值"的pandas数据帧,如下所示:

columns=['age','gender','height',
     'weight','ap_hi','ap_lo',
     'cholesterol','gluc','smoke',
     'alco','active']

values = a

df = pd.DataFrame(a,columns=columns)
Run Code Online (Sandbox Code Playgroud)

这种方法引发了ValueError:传递值的形状是(1,11),索引暗示(11,11).我做错了什么以及如何以正确的方式执行它?

谢谢!

python arrays numpy pandas

10
推荐指数
1
解决办法
3万
查看次数

具有虚拟变量的pyspark矩阵

有两列:

ID  Text
1    a
2    b
3    c
Run Code Online (Sandbox Code Playgroud)

我怎么能用这样的虚拟变量创建矩阵:

ID a b c
1  1 0 0
2  0 1 0
3  0 0 1
Run Code Online (Sandbox Code Playgroud)

使用pyspark库及其功能?

python apache-spark pyspark

7
推荐指数
2
解决办法
4915
查看次数

如何在列中将k-means预测的簇添加到Python中的数据帧

有关于python中的kmeans聚类的问题.

所以我做了那样的分析:

from sklearn.cluster import KMeans

km = KMeans(n_clusters=12, random_state=1)
new = data._get_numeric_data().dropna(axis=1)
kmeans.fit(new)
predict=km.predict(new)
Run Code Online (Sandbox Code Playgroud)

如何将包含群集结果的列添加到我的第一个数据帧"数据"作为附加列?谢谢!

python cluster-analysis k-means pandas scikit-learn

7
推荐指数
1
解决办法
7168
查看次数

使用新的端点配置更新 Sagemaker 端点

与 Sagemaker 重新训练模型的自动化有点混淆。

目前我有一个带有 Sagemaker 模型的笔记本实例来LinearLerner执行分类任务。因此,Estimator我正在进行训练,然后部署模型创建Endpoint. 之后使用Lambda函数调用此端点,我将其添加到API Gateway接收 api 端点,该端点可用于 POST 请求并使用类发送回响应。

现在我面临着再培训的问题。为此,我使用serverless方法和lambda函数获取training_jobs的环境变量。但问题是Sagemaker不允许重写训练作业,你只能创建新的训练作业。我的目标是当新的训练作业和新的端点配置将应用于现有端点时自动化该部分,我不需要更改 API 网关中的任何内容。是否可以通过某种方式自动将新的端点配置附加到现有端点?

谢谢

python endpoint amazon-sagemaker

7
推荐指数
2
解决办法
6520
查看次数

Python中的均方误差

我正在尝试制作函数来计算y(真值)和y_pred(预测值)的均方误差,而不是使用sklearn或其他实现.

我接下来会尝试:

def mserror(y, y_pred):
    i=0
    for i in range (len(y)):
        i+=1
        mse = ((y - y_pred) ** 2).mean(y)   
        return mse
Run Code Online (Sandbox Code Playgroud)

能否请您纠正我在计算中出错的原因以及可以修复的问题?

python numpy scikit-learn

6
推荐指数
1
解决办法
2万
查看次数

python中用于回归聚类的库?

最近我发现了一篇关于回归聚类算法的有趣文章,它可以处理回归和聚类的任务:

http://ncss.wpengine.netdna-cdn.com/wp-content/themes/ncss/pdf/Procedures/NCSS/Regression_Clustering.pdf

我只是好奇-是否有一些技术(库)可以通过 Python 来完成?谢谢!

python numpy scipy scikit-learn

5
推荐指数
1
解决办法
2613
查看次数

熊猫DENSE排名

我正在处理pandas数据帧,并有一个像这样的框架:

Year Value  
2012  10
2013  20
2013  25
2014  30
Run Code Online (Sandbox Code Playgroud)

我想在DENSE_RANK()上设置一个等于(按年份排序)的函数.制作这样的附加列:

    Year Value Rank
    2012  10    1
    2013  20    2
    2013  25    2
    2014  30    3
Run Code Online (Sandbox Code Playgroud)

怎么能在熊猫里完成?

谢谢!

python sql pandas

5
推荐指数
3
解决办法
4634
查看次数

从Datagrip连接到Vertica

我正在使用DataGrip,我有点新鲜.有一种情况我可以连接到Vertica DB.据我所知,没有本机提供的驱动程序连接到该类型的数据库.我应该采取什么步骤来连接它?是否有一些司机要处理?

谢谢!

sql odbc vertica datagrip

5
推荐指数
1
解决办法
2333
查看次数

SnowballStemmer为俄语单词列表

我知道如何在单个单词上执行SnowballStemmer(在我的情况下,在俄语单词上).做下一件事:

from nltk.stem.snowball import SnowballStemmer 

stemmer = SnowballStemmer("russian") 
stemmer.stem("???????")
'?????'
Run Code Online (Sandbox Code Playgroud)

如果我有一个像['Василий','Геннадий','Виталий']这样的单词列表,我该怎么办呢?

我使用for循环的方法似乎不起作用:(

l=[stemmer.stem(word) for word in l]
Run Code Online (Sandbox Code Playgroud)

python nlp stemming snowball nltk

5
推荐指数
1
解决办法
4555
查看次数