小编Shi*_*ijo的帖子

删除 python pandas 中所有列值的双引号

所以我正在读取 CSV 文件,然后只保留某些列并重写该文件。我遇到的问题是一列(例如 ColumnA)的值用双引号引起来。有没有一种简单的方法可以让我完成这项任务并删除那些双引号?

a = pd.read_csv(filename,low_memory=False)

a1 = a[['ColumnA','ColumnB']]

a1.to_csv('filelocation')
Run Code Online (Sandbox Code Playgroud)

python csv pandas

5
推荐指数
1
解决办法
2万
查看次数

将pyspark数据帧与另一个数据帧进行比较

我有2个数据帧来比较它们具有相同的列数,并且比较结果应该具有不匹配的字段以及值和ID.

数据帧一

+-----+---+--------+
| name| id|    City|
+-----+---+--------+
|  Sam|  3| Toronto|
| BALU| 11|     YYY|
|CLAIR|  7|Montreal|
|HELEN| 10|  London|
|HELEN| 16|  Ottawa|
+-----+---+--------+
Run Code Online (Sandbox Code Playgroud)

数据帧二

+-------------+-----------+-------------+
|Expected_name|Expected_id|Expected_City|
+-------------+-----------+-------------+
|          SAM|          3|      Toronto|
|         BALU|         11|          YYY|
|        CLARE|          7|     Montreal|
|        HELEN|         10|        Londn|
|        HELEN|         15|       Ottawa|
+-------------+-----------+-------------+
Run Code Online (Sandbox Code Playgroud)

预期产出

+---+------------+--------------+-----+
| ID|Actual_value|Expected_value|Field|
+---+------------+--------------+-----+
|  7|       CLAIR|         CLARE| name|
|  3|         Sam|           SAM| name|
| 10|      London|         Londn| City|
+---+------------+--------------+-----+
Run Code Online (Sandbox Code Playgroud)

创建示例数据

from pyspark.sql import SQLContext
from pyspark.context import …
Run Code Online (Sandbox Code Playgroud)

python dataframe apache-spark-sql pyspark

5
推荐指数
1
解决办法
1956
查看次数

Pandas用值列表替换最小值 - rowise

我有一个数据框,其中包含所有列中的数字.我想找到每列的最小值,并用给定的值集替换它们.我用iloc尝试了idxmin,但没有运气,可能是我以错误的方式使用它们.任何帮助表示赞赏.

df = abs(pd.DataFrame(np.random.randn(4, 4)))
print (df)
print (df[df!=0].min(axis=0))
newvalues =[1,2,3,4]
Run Code Online (Sandbox Code Playgroud)

让我们说输入是

          0         1         2         3
0  2.776975  1.433614  0.147925  0.032635
1  1.328099  0.050764  0.255676  0.360205
2  0.614594  0.547384  0.791848  0.340333
3  1.475486  0.114053  0.904416  0.060585
Run Code Online (Sandbox Code Playgroud)

预期产出将是

          0         1         2         3
0  2.776975  1.433614         3         4
1  1.328099         2  0.255676  0.360205
2         1  0.547384  0.791848  0.340333
3  1.475486  0.114053  0.904416  0.060585
Run Code Online (Sandbox Code Playgroud)

python dataframe pandas

4
推荐指数
1
解决办法
436
查看次数

标签 统计

python ×3

dataframe ×2

pandas ×2

apache-spark-sql ×1

csv ×1

pyspark ×1