我想找到下面第x3列最接近的值.
data=data.frame(x1=c(24,12,76),x2=c(15,30,20),x3=c(45,27,15))
data
x1 x2 x3
1 24 15 45
2 12 30 27
3 76 20 15
Run Code Online (Sandbox Code Playgroud)
所以期望的输出将是
Closest_Value_to_x3
24
30
20
Run Code Online (Sandbox Code Playgroud)
请帮忙.谢谢
我想删除标点符号并将RDD中的字母变成小写?以下是我的数据集
l=sc.parallelize(["How are you","Hello\ then% you"\
,"I think he's fine+ COMING"])
Run Code Online (Sandbox Code Playgroud)
我尝试了以下功能,但收到错误消息
punc='!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'
def lower_clean_str(x):
lowercased_str = x.lower()
clean_str = lowercased_str.translate(punc)
return clean_str
one_RDD = l.flatMap(lambda x: lower_clean_str(x).split())
one_RDD.collect()
Run Code Online (Sandbox Code Playgroud)
但这给了我一个错误。可能是什么问题?我怎样才能解决这个问题?谢谢。
我想将 minmax 缩放器应用于数据帧 df 中的 X2 和 X3 列,并为每个月添加 X2_Scale 和 X3_Scale 列。
df = pd.DataFrame({
'Month': [1,1,1,1,1,1,2,2,2,2,2,2,2],
'X1': [12,10,100,55,65,60,35,25,10,15,30,40,50],
'X2': [10,15,24,32,8,6,10,23,24,56,45,10,56],
'X3': [12,90,20,40,10,15,30,40,60,42,2,4,10]
})
Run Code Online (Sandbox Code Playgroud)
下面的代码是我尝试过但出现错误的代码。
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
cols = df.columns[2:4]
df[cols + 'scale'] = df.groupby('Month')[cols].scaler.fit_transform(df[cols])
Run Code Online (Sandbox Code Playgroud)
我怎样才能做到这一点?谢谢。
我想计算平均值,并在Pyspark中按语句归为一组。我怎样才能做到这一点?
df = spark.createDataFrame([(1, 'John', 1.79, 28,'M', 'Doctor'),
(2, 'Steve', 1.78, 45,'M', None),
(3, 'Emma', 1.75, None, None, None),
(4, 'Ashley',1.6, 33,'F', 'Analyst'),
(5, 'Olivia', 1.8, 54,'F', 'Teacher'),
(6, 'Hannah', 1.82, None, 'F', None),
(7, 'William', 1.7, 42,'M', 'Engineer'),
(None,None,None,None,None,None),
(8,'Ethan',1.55,38,'M','Doctor'),
(9,'Hannah',1.65,None,'F','Doctor')]
, ['Id', 'Name', 'Height', 'Age', 'Gender', 'Profession'])
Run Code Online (Sandbox Code Playgroud)
#这仅显示平均值,但我需要在其旁边计数。我怎样才能做到这一点?
df.groupBy("Profession").agg({"Age":"avg"}).show()
df.show()
Run Code Online (Sandbox Code Playgroud)
谢谢。
我想在 dplyr 中使用 not in 语句与 data.frame ,但它不起作用。我想从 data.frame 中排除值,因为我确实有大量的周数。下面是一个例子
df1 = data.frame(week=c(1,2,3,4,5,6),sales=c(10,24,23,54,65,45))
week_e=data.frame(week=c(2,5))
Run Code Online (Sandbox Code Playgroud)
所以我想从 df1 中排除 week_e 数据框中的周,下面是代码,但它不起作用。请帮忙!谢谢。
df1 %>%
filter(!week %in% week_e)
week sales
1 1 10
2 2 24
3 3 23
4 4 54
5 5 65
6 6 45
Run Code Online (Sandbox Code Playgroud) 我列出了我的数据帧以删除未使用的数据帧。首先,我使用下面的函数来列出我从其中一篇文章中找到的数据帧
from pyspark.sql import DataFrame
def list_dataframes():
return [k for (k, v) in globals().items() if isinstance(v, DataFrame)]
Run Code Online (Sandbox Code Playgroud)
然后我尝试从列表中删除未使用的。我在下面使用的代码
df2.unpersist()
Run Code Online (Sandbox Code Playgroud)
当我再次列出时,df2 仍然存在。如何删除数据帧以在 pyspark 上获得一些内存?或者你有其他建议吗?谢谢你。
我想在 mssql 中的以下查询中的 id 之间放置逗号。我从不同的查询中得到这些可能是数千个 ID。我现在在 excel 中执行此操作。我将 ID 复制到 excel 并使用“&”在 ID 号前面粘贴逗号,然后将粘贴复制到 Mssql。在 Mssql 中有一种实用的方法可以做到这一点吗?只需复制ID并将逗号放在前面?谢谢你。
Select * from Table A where
id in
(123
,453
,576
,564
,535
,553
,327
)
Run Code Online (Sandbox Code Playgroud) 我正在尝试在 Python 中使用一个名为 Snowballstemmer 的库,但它似乎没有按预期工作。原因可能是什么?请参阅下面我的代码。
\n\n我的数据集:
\n\ndf=[[\'musteri\', \'hizmetlerine\', \'cabuk\', \'baglaniyorum\'],[\'konuda\', \'yard\xc4\xb1mc\xc4\xb1\', \'oluyorlar\', \n \'islemlerimde\']]\n
Run Code Online (Sandbox Code Playgroud)\n\n我已经应用了snowballstemmer包并导入TurkishStemmer
\n\n from snowballstemmer import TurkishStemmer\n turkStem=TurkishStemmer()\n data_words_nostops=[turkStem.stemWord(word) for word in df]\n data_words_nostops\n\n [[\'musteri\', \'hizmetlerine\', \'cabuk\', \'baglaniyorum\'],\n [\'konuda\', \'yard\xc4\xb1mc\xc4\xb1\', \'oluyorlar\', \'islemlerimde\']]\n
Run Code Online (Sandbox Code Playgroud)\n\n不幸的是它没有起作用。但是当我将它应用于单个单词时,它按预期工作:
\n\n turkStem.stemWord("islemlerimde")\n \'islem\'\n
Run Code Online (Sandbox Code Playgroud)\n\n可能是什么问题呢?任何帮助将不胜感激。
\n\n谢谢。
\n