在Hive实例中包含一些数据库和表.我想显示一些特定数据库的表(比方说3_db).
+------------------+--+
| database_name |
+------------------+--+
| 1_db |
| 2_db |
| 3_db |
+------------------+--+
Run Code Online (Sandbox Code Playgroud)
如果我从bash进入beeline - 那里没什么复杂的,我只是做以下事情:
show databases;
show tables from 3_db;
Run Code Online (Sandbox Code Playgroud)
当我通过ipython notebeook使用pyspark时 - 我的廉价技巧在那里不起作用并在第二行(显示来自3_db的表)给我错误:
sqlContext.sql('show databases').show()
sqlContext.sql('show tables from 3_db').show()
Run Code Online (Sandbox Code Playgroud)
什么似乎是错的,为什么相同的代码在一个地方工作而在另一个地方不起作用?
我有一个看起来像这样的numpy数组:
a = np.array([35,2,160,56,120,80,1,1,0,0,1])
Run Code Online (Sandbox Code Playgroud)
然后我试图将该数组转换为具有逻辑"一列一值"的pandas数据帧,如下所示:
columns=['age','gender','height',
'weight','ap_hi','ap_lo',
'cholesterol','gluc','smoke',
'alco','active']
values = a
df = pd.DataFrame(a,columns=columns)
Run Code Online (Sandbox Code Playgroud)
这种方法引发了ValueError:传递值的形状是(1,11),索引暗示(11,11).我做错了什么以及如何以正确的方式执行它?
谢谢!
有两列:
ID Text
1 a
2 b
3 c
Run Code Online (Sandbox Code Playgroud)
我怎么能用这样的虚拟变量创建矩阵:
ID a b c
1 1 0 0
2 0 1 0
3 0 0 1
Run Code Online (Sandbox Code Playgroud)
使用pyspark库及其功能?
有关于python中的kmeans聚类的问题.
所以我做了那样的分析:
from sklearn.cluster import KMeans
km = KMeans(n_clusters=12, random_state=1)
new = data._get_numeric_data().dropna(axis=1)
kmeans.fit(new)
predict=km.predict(new)
Run Code Online (Sandbox Code Playgroud)
如何将包含群集结果的列添加到我的第一个数据帧"数据"作为附加列?谢谢!
与 Sagemaker 重新训练模型的自动化有点混淆。
目前我有一个带有 Sagemaker 模型的笔记本实例来LinearLerner执行分类任务。因此,Estimator我正在进行训练,然后部署模型创建Endpoint. 之后使用Lambda函数调用此端点,我将其添加到API Gateway接收 api 端点,该端点可用于 POST 请求并使用类发送回响应。
现在我面临着再培训的问题。为此,我使用serverless方法和lambda函数获取training_jobs的环境变量。但问题是Sagemaker不允许重写训练作业,你只能创建新的训练作业。我的目标是当新的训练作业和新的端点配置将应用于现有端点时自动化该部分,我不需要更改 API 网关中的任何内容。是否可以通过某种方式自动将新的端点配置附加到现有端点?
谢谢
我正在尝试制作函数来计算y(真值)和y_pred(预测值)的均方误差,而不是使用sklearn或其他实现.
我接下来会尝试:
def mserror(y, y_pred):
i=0
for i in range (len(y)):
i+=1
mse = ((y - y_pred) ** 2).mean(y)
return mse
Run Code Online (Sandbox Code Playgroud)
能否请您纠正我在计算中出错的原因以及可以修复的问题?
最近我发现了一篇关于回归聚类算法的有趣文章,它可以处理回归和聚类的任务:
我只是好奇-是否有一些技术(库)可以通过 Python 来完成?谢谢!
我正在处理pandas数据帧,并有一个像这样的框架:
Year Value
2012 10
2013 20
2013 25
2014 30
Run Code Online (Sandbox Code Playgroud)
我想在DENSE_RANK()上设置一个等于(按年份排序)的函数.制作这样的附加列:
Year Value Rank
2012 10 1
2013 20 2
2013 25 2
2014 30 3
Run Code Online (Sandbox Code Playgroud)
怎么能在熊猫里完成?
谢谢!
我正在使用DataGrip,我有点新鲜.有一种情况我可以连接到Vertica DB.据我所知,没有本机提供的驱动程序连接到该类型的数据库.我应该采取什么步骤来连接它?是否有一些司机要处理?
谢谢!
我知道如何在单个单词上执行SnowballStemmer(在我的情况下,在俄语单词上).做下一件事:
from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer("russian")
stemmer.stem("???????")
'?????'
Run Code Online (Sandbox Code Playgroud)
如果我有一个像['Василий','Геннадий','Виталий']这样的单词列表,我该怎么办呢?
我使用for循环的方法似乎不起作用:(
l=[stemmer.stem(word) for word in l]
Run Code Online (Sandbox Code Playgroud)