所以我正在读取 CSV 文件,然后只保留某些列并重写该文件。我遇到的问题是一列(例如 ColumnA)的值用双引号引起来。有没有一种简单的方法可以让我完成这项任务并删除那些双引号?
a = pd.read_csv(filename,low_memory=False)
a1 = a[['ColumnA','ColumnB']]
a1.to_csv('filelocation')
Run Code Online (Sandbox Code Playgroud) 我有2个数据帧来比较它们具有相同的列数,并且比较结果应该具有不匹配的字段以及值和ID.
数据帧一
+-----+---+--------+
| name| id| City|
+-----+---+--------+
| Sam| 3| Toronto|
| BALU| 11| YYY|
|CLAIR| 7|Montreal|
|HELEN| 10| London|
|HELEN| 16| Ottawa|
+-----+---+--------+
Run Code Online (Sandbox Code Playgroud)
数据帧二
+-------------+-----------+-------------+
|Expected_name|Expected_id|Expected_City|
+-------------+-----------+-------------+
| SAM| 3| Toronto|
| BALU| 11| YYY|
| CLARE| 7| Montreal|
| HELEN| 10| Londn|
| HELEN| 15| Ottawa|
+-------------+-----------+-------------+
Run Code Online (Sandbox Code Playgroud)
预期产出
+---+------------+--------------+-----+
| ID|Actual_value|Expected_value|Field|
+---+------------+--------------+-----+
| 7| CLAIR| CLARE| name|
| 3| Sam| SAM| name|
| 10| London| Londn| City|
+---+------------+--------------+-----+
Run Code Online (Sandbox Code Playgroud)
码
from pyspark.sql import SQLContext
from pyspark.context import …Run Code Online (Sandbox Code Playgroud) 我有一个数据框,其中包含所有列中的数字.我想找到每列的最小值,并用给定的值集替换它们.我用iloc尝试了idxmin,但没有运气,可能是我以错误的方式使用它们.任何帮助表示赞赏.
df = abs(pd.DataFrame(np.random.randn(4, 4)))
print (df)
print (df[df!=0].min(axis=0))
newvalues =[1,2,3,4]
Run Code Online (Sandbox Code Playgroud)
让我们说输入是
0 1 2 3
0 2.776975 1.433614 0.147925 0.032635
1 1.328099 0.050764 0.255676 0.360205
2 0.614594 0.547384 0.791848 0.340333
3 1.475486 0.114053 0.904416 0.060585
Run Code Online (Sandbox Code Playgroud)
预期产出将是
0 1 2 3
0 2.776975 1.433614 3 4
1 1.328099 2 0.255676 0.360205
2 1 0.547384 0.791848 0.340333
3 1.475486 0.114053 0.904416 0.060585
Run Code Online (Sandbox Code Playgroud)