这与Get pandas.read_csv 将空值读取为空字符串而不是 nan完全相反
给定以下 CSV 文件:
col,val
"hi
there",1
,2
\f\,3
"",4
"""hi""",5
Run Code Online (Sandbox Code Playgroud)
我希望它被解读为:
col val
0 hi\nthere 1
1 NaN 2
2 \f\ 3
3 4
4 "hi" 5
Run Code Online (Sandbox Code Playgroud)
即,将空字段 (val 2) 读取为NaN,同时将空字符串 (val 4)读取为空字符串。
当前pd.read_csv将 val 2 和 val 4 都转换为NaN,或者如果我使用na_filter=False两者都保留为空字符串。
我假设这两种表示在 CSV 中意味着不同的东西(空字段与空字符串),所以我假设大熊猫也应该能够区分这一点。
有没有办法让熊猫区分这两种情况?或者我的假设是错误的,这两种表示实际上是相同的?(如果第二个是这种情况,请指出我的 CSV 标准)
更多信息,我通过将 BigQuery 表(具有预期含义,val 2 为空,val 4 为空字符串)导出到 CSV 中获得了 CSV。我想找回完全相同的桌子。所以这个例子不仅仅是一个人为的例子,而是 BigQuery 在导出到 CSV 时实际使用的例子。
编辑:进一步搜索揭示了4 年前的一个Github 问题,该问题讨论了类似的观点(例如,请参阅此评论),并且其中一位评论者提到存在一些强制(我不确定他们指的是什么,但我理解)作为空字段和空字符串之间的强制)。这还在发生吗?
创建 BigQuery csv 导出时,有什么方法可以将空字符串替换为其他内容吗?喜欢替换""为"EMPTY_STR"? 然后,您可以在使用 时使用转换器函数将它们替换回空字符串.read_csv()。
| 归档时间: |
|
| 查看次数: |
5401 次 |
| 最近记录: |