小编mel*_*lik的帖子

R中特定列的最接近值

我想找到下面第x3列最接近的值.

data=data.frame(x1=c(24,12,76),x2=c(15,30,20),x3=c(45,27,15))
data
  x1 x2 x3
1 24 15 45
2 12 30 27
3 76 20 15
Run Code Online (Sandbox Code Playgroud)

所以期望的输出将是

Closest_Value_to_x3
   24
   30
   20
Run Code Online (Sandbox Code Playgroud)

请帮忙.谢谢

r closest dataframe

14
推荐指数
1
解决办法
961
查看次数

Pyspark如何在Rdd中删除标点符号并变成小写字母?

我想删除标点符号并将RDD中的字母变成小写?以下是我的数据集

 l=sc.parallelize(["How are you","Hello\ then% you"\
,"I think he's fine+ COMING"])
Run Code Online (Sandbox Code Playgroud)

我尝试了以下功能,但收到错误消息

punc='!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

def lower_clean_str(x):
    lowercased_str = x.lower()
    clean_str = lowercased_str.translate(punc) 
    return clean_str

one_RDD = l.flatMap(lambda x: lower_clean_str(x).split())
one_RDD.collect()
Run Code Online (Sandbox Code Playgroud)

但这给了我一个错误。可能是什么问题?我怎样才能解决这个问题?谢谢。

lowercase punctuation pyspark

5
推荐指数
1
解决办法
1万
查看次数

在 pandas 数据框中按 MinMaxScaler 进行分组

我想将 minmax 缩放器应用于数据帧 df 中的 X2 和 X3 列,并为每个月添加 X2_Scale 和 X3_Scale 列。

df = pd.DataFrame({
    'Month': [1,1,1,1,1,1,2,2,2,2,2,2,2],
    'X1': [12,10,100,55,65,60,35,25,10,15,30,40,50],
    'X2': [10,15,24,32,8,6,10,23,24,56,45,10,56],
    'X3': [12,90,20,40,10,15,30,40,60,42,2,4,10]
})
Run Code Online (Sandbox Code Playgroud)

下面的代码是我尝试过但出现错误的代码。

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

cols = df.columns[2:4]
df[cols + 'scale'] = df.groupby('Month')[cols].scaler.fit_transform(df[cols])
Run Code Online (Sandbox Code Playgroud)

我怎样才能做到这一点?谢谢。

python pandas scikit-learn sklearn-pandas

5
推荐指数
1
解决办法
4437
查看次数

Pyspark:如何计算单个群组的平均和计数?

我想计算平均值,并在Pyspark中按语句归为一组。我怎样才能做到这一点?

df = spark.createDataFrame([(1, 'John', 1.79, 28,'M', 'Doctor'),
                        (2, 'Steve', 1.78, 45,'M', None),
                        (3, 'Emma', 1.75, None, None, None),
                        (4, 'Ashley',1.6, 33,'F', 'Analyst'),
                        (5, 'Olivia', 1.8, 54,'F', 'Teacher'),
                        (6, 'Hannah', 1.82, None, 'F', None),
                        (7, 'William', 1.7, 42,'M', 'Engineer'),
                        (None,None,None,None,None,None),
                        (8,'Ethan',1.55,38,'M','Doctor'),
                        (9,'Hannah',1.65,None,'F','Doctor')]
                       , ['Id', 'Name', 'Height', 'Age', 'Gender', 'Profession'])
Run Code Online (Sandbox Code Playgroud)

#这仅显示平均值,但我需要在其旁边计数。我怎样才能做到这一点?

df.groupBy("Profession").agg({"Age":"avg"}).show()
df.show()
Run Code Online (Sandbox Code Playgroud)

谢谢。

group-by average count pyspark

4
推荐指数
1
解决办法
1万
查看次数

dplyr 过滤器语句不在 data.frame 的表达式中

我想在 dplyr 中使用 not in 语句与 data.frame ,但它不起作用。我想从 data.frame 中排除值,因为我确实有大量的周数。下面是一个例子

df1 = data.frame(week=c(1,2,3,4,5,6),sales=c(10,24,23,54,65,45))
week_e=data.frame(week=c(2,5)) 
Run Code Online (Sandbox Code Playgroud)

所以我想从 df1 中排除 week_e 数据框中的周,下面是代码,但它不起作用。请帮忙!谢谢。

       df1  %>%
       filter(!week %in% week_e)  

       week sales
   1    1    10
   2    2    24
   3    3    23
   4    4    54
   5    5    65
   6    6    45
Run Code Online (Sandbox Code Playgroud)

r filter notin dplyr

3
推荐指数
1
解决办法
8932
查看次数

如何从pyspark中删除数据帧来管理内存?

我列出了我的数据帧以删除未使用的数据帧。首先,我使用下面的函数来列出我从其中一篇文章中找到的数据帧

from pyspark.sql import DataFrame

def list_dataframes():

    return [k for (k, v) in globals().items() if isinstance(v, DataFrame)] 
Run Code Online (Sandbox Code Playgroud)

然后我尝试从列表中删除未使用的。我在下面使用的代码

df2.unpersist()
Run Code Online (Sandbox Code Playgroud)

当我再次列出时,df2 仍然存在。如何删除数据帧以在 pyspark 上获得一些内存?或者你有其他建议吗?谢谢你。

python memory apache-spark pyspark

3
推荐指数
1
解决办法
1万
查看次数

使用 SSMS 在 where 子句中的每个 id 之前放置逗号

我想在 mssql 中的以下查询中的 id 之间放置逗号。我从不同的查询中得到这些可能是数千个 ID。我现在在 excel 中执行此操作。我将 ID 复制到 excel 并使用“&”在 ID 号前面粘贴逗号,然后将粘贴复制到 Mssql。在 Mssql 中有一种实用的方法可以做到这一点吗?只需复制ID并将逗号放在前面?谢谢你。

Select * from Table A where 
id in 
(123
,453
,576
,564
,535
,553
,327
)
Run Code Online (Sandbox Code Playgroud)

sql-server excel comma

3
推荐指数
1
解决办法
308
查看次数

在 Python 中使用 Snowballstemmer 获取土耳其语单词列表时出现问题

我正在尝试在 Python 中使用一个名为 Snowballstemmer 的库,但它似乎没有按预期工作。原因可能是什么?请参阅下面我的代码。

\n\n

我的数据集:

\n\n
df=[[\'musteri\', \'hizmetlerine\', \'cabuk\', \'baglaniyorum\'],[\'konuda\', \'yard\xc4\xb1mc\xc4\xb1\', \'oluyorlar\', \n   \'islemlerimde\']]\n
Run Code Online (Sandbox Code Playgroud)\n\n

我已经应用了snowballstemmer包并导入TurkishStemmer

\n\n
  from snowballstemmer import TurkishStemmer\n  turkStem=TurkishStemmer()\n  data_words_nostops=[turkStem.stemWord(word) for word in df]\n  data_words_nostops\n\n  [[\'musteri\', \'hizmetlerine\', \'cabuk\', \'baglaniyorum\'],\n   [\'konuda\', \'yard\xc4\xb1mc\xc4\xb1\', \'oluyorlar\', \'islemlerimde\']]\n
Run Code Online (Sandbox Code Playgroud)\n\n

不幸的是它没有起作用。但是当我将它应用于单个单词时,它按预期工作:

\n\n
 turkStem.stemWord("islemlerimde")\n \'islem\'\n
Run Code Online (Sandbox Code Playgroud)\n\n

可能是什么问题呢?任何帮助将不胜感激。

\n\n

谢谢。

\n

python turkish nlp list

1
推荐指数
1
解决办法
2426
查看次数