小编mel*_*lik的帖子

R中特定列的最接近值

我想找到下面第x3列最接近的值.

data=data.frame(x1=c(24,12,76),x2=c(15,30,20),x3=c(45,27,15))
data
  x1 x2 x3
1 24 15 45
2 12 30 27
3 76 20 15

Run Code Online (Sandbox Code Playgroud)

所以期望的输出将是

Closest_Value_to_x3
   24
   30
   20

Run Code Online (Sandbox Code Playgroud)

请帮忙.谢谢

r closest dataframe

mel*_*lik

2019 01-23

14
推荐指数

1
解决办法

961
查看次数

Pyspark如何在Rdd中删除标点符号并变成小写字母？

我想删除标点符号并将RDD中的字母变成小写？以下是我的数据集

 l=sc.parallelize(["How are you","Hello\ then% you"\
,"I think he's fine+ COMING"])

Run Code Online (Sandbox Code Playgroud)

我尝试了以下功能，但收到错误消息

punc='!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

def lower_clean_str(x):
    lowercased_str = x.lower()
    clean_str = lowercased_str.translate(punc) 
    return clean_str

one_RDD = l.flatMap(lambda x: lower_clean_str(x).split())
one_RDD.collect()

Run Code Online (Sandbox Code Playgroud)

但这给了我一个错误。可能是什么问题？我怎样才能解决这个问题？谢谢。

lowercase punctuation pyspark

mel*_*lik

2018 11-09

5
推荐指数

1
解决办法

1万
查看次数

在 pandas 数据框中按 MinMaxScaler 进行分组

我想将 minmax 缩放器应用于数据帧 df 中的 X2 和 X3 列，并为每个月添加 X2_Scale 和 X3_Scale 列。

df = pd.DataFrame({
    'Month': [1,1,1,1,1,1,2,2,2,2,2,2,2],
    'X1': [12,10,100,55,65,60,35,25,10,15,30,40,50],
    'X2': [10,15,24,32,8,6,10,23,24,56,45,10,56],
    'X3': [12,90,20,40,10,15,30,40,60,42,2,4,10]
})

Run Code Online (Sandbox Code Playgroud)

下面的代码是我尝试过但出现错误的代码。

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

cols = df.columns[2:4]
df[cols + 'scale'] = df.groupby('Month')[cols].scaler.fit_transform(df[cols])

Run Code Online (Sandbox Code Playgroud)

我怎样才能做到这一点？谢谢。

python pandas scikit-learn sklearn-pandas

mel*_*lik

2021 05-23

5
推荐指数

1
解决办法

4437
查看次数

Pyspark：如何计算单个群组的平均和计数？

我想计算平均值，并在Pyspark中按语句归为一组。我怎样才能做到这一点？

df = spark.createDataFrame([(1, 'John', 1.79, 28,'M', 'Doctor'),
                        (2, 'Steve', 1.78, 45,'M', None),
                        (3, 'Emma', 1.75, None, None, None),
                        (4, 'Ashley',1.6, 33,'F', 'Analyst'),
                        (5, 'Olivia', 1.8, 54,'F', 'Teacher'),
                        (6, 'Hannah', 1.82, None, 'F', None),
                        (7, 'William', 1.7, 42,'M', 'Engineer'),
                        (None,None,None,None,None,None),
                        (8,'Ethan',1.55,38,'M','Doctor'),
                        (9,'Hannah',1.65,None,'F','Doctor')]
                       , ['Id', 'Name', 'Height', 'Age', 'Gender', 'Profession'])

Run Code Online (Sandbox Code Playgroud)

＃这仅显示平均值，但我需要在其旁边计数。我怎样才能做到这一点？

df.groupBy("Profession").agg({"Age":"avg"}).show()
df.show()

Run Code Online (Sandbox Code Playgroud)

谢谢。

group-by average count pyspark

mel*_*lik

lucky-day

4
推荐指数

1
解决办法

1万
查看次数

dplyr 过滤器语句不在 data.frame 的表达式中

我想在 dplyr 中使用 not in 语句与 data.frame ，但它不起作用。我想从 data.frame 中排除值，因为我确实有大量的周数。下面是一个例子

df1 = data.frame(week=c(1,2,3,4,5,6),sales=c(10,24,23,54,65,45))
week_e=data.frame(week=c(2,5))

Run Code Online (Sandbox Code Playgroud)

所以我想从 df1 中排除 week_e 数据框中的周，下面是代码，但它不起作用。请帮忙！谢谢。

       df1  %>%
       filter(!week %in% week_e)  

       week sales
   1    1    10
   2    2    24
   3    3    23
   4    4    54
   5    5    65
   6    6    45

Run Code Online (Sandbox Code Playgroud)

r filter notin dplyr

mel*_*lik

2018 11-12

3
推荐指数

1
解决办法

8932
查看次数

如何从pyspark中删除数据帧来管理内存？

我列出了我的数据帧以删除未使用的数据帧。首先，我使用下面的函数来列出我从其中一篇文章中找到的数据帧

from pyspark.sql import DataFrame

def list_dataframes():

    return [k for (k, v) in globals().items() if isinstance(v, DataFrame)]

Run Code Online (Sandbox Code Playgroud)

然后我尝试从列表中删除未使用的。我在下面使用的代码

df2.unpersist()

Run Code Online (Sandbox Code Playgroud)

当我再次列出时，df2 仍然存在。如何删除数据帧以在 pyspark 上获得一些内存？或者你有其他建议吗？谢谢你。

python memory apache-spark pyspark

mel*_*lik

2018 10-31

3
推荐指数

1
解决办法

1万
查看次数

使用 SSMS 在 where 子句中的每个 id 之前放置逗号

我想在 mssql 中的以下查询中的 id 之间放置逗号。我从不同的查询中得到这些可能是数千个 ID。我现在在 excel 中执行此操作。我将 ID 复制到 excel 并使用“&”在 ID 号前面粘贴逗号，然后将粘贴复制到 Mssql。在 Mssql 中有一种实用的方法可以做到这一点吗？只需复制ID并将逗号放在前面？谢谢你。

Select * from Table A where 
id in 
(123
,453
,576
,564
,535
,553
,327
)

Run Code Online (Sandbox Code Playgroud)

sql-server excel comma

mel*_*lik

2019 01-09

3
推荐指数

1
解决办法

308
查看次数

在 Python 中使用 Snowballstemmer 获取土耳其语单词列表时出现问题

我正在尝试在 Python 中使用一个名为 Snowballstemmer 的库，但它似乎没有按预期工作。原因可能是什么？请参阅下面我的代码。

\n\n

我的数据集：

\n\n

df=[[\'musteri\', \'hizmetlerine\', \'cabuk\', \'baglaniyorum\'],[\'konuda\', \'yard\xc4\xb1mc\xc4\xb1\', \'oluyorlar\', \n   \'islemlerimde\']]\n

Run Code Online (Sandbox Code Playgroud)\n\n

我已经应用了snowballstemmer包并导入TurkishStemmer

\n\n

  from snowballstemmer import TurkishStemmer\n  turkStem=TurkishStemmer()\n  data_words_nostops=[turkStem.stemWord(word) for word in df]\n  data_words_nostops\n\n  [[\'musteri\', \'hizmetlerine\', \'cabuk\', \'baglaniyorum\'],\n   [\'konuda\', \'yard\xc4\xb1mc\xc4\xb1\', \'oluyorlar\', \'islemlerimde\']]\n

Run Code Online (Sandbox Code Playgroud)\n\n

不幸的是它没有起作用。但是当我将它应用于单个单词时，它按预期工作：

\n\n

 turkStem.stemWord("islemlerimde")\n \'islem\'\n

Run Code Online (Sandbox Code Playgroud)\n\n

可能是什么问题呢？任何帮助将不胜感激。

\n\n

谢谢。

python turkish nlp list

mel*_*lik

2020 05-03

1
推荐指数

1
解决办法

2426
查看次数

标签统计

pyspark ×3

python ×3

r ×2

apache-spark ×1

average ×1

closest ×1

comma ×1

count ×1

dataframe ×1

dplyr ×1

excel ×1

filter ×1

group-by ×1

list ×1

lowercase ×1

memory ×1

nlp ×1

notin ×1

pandas ×1

punctuation ×1

scikit-learn ×1

sklearn-pandas ×1

sql-server ×1

turkish ×1

标签 统计

小编mel_lik的帖子

标签统计