在打开大型 csv 文件时,{arrow} 的列类型自动检测给我带来了一些麻烦。特别是,它会删除某些标识符的前导零,并执行其他一些不幸的操作。由于数据集相当宽(几百列)并且我不想手动设置所有架构值,因此我想以某种方式以编程方式设置它。
一个好的开始是在使用 . 打开数据集时将所有arrow::open_dataset列转换为字符。或者更正datase_connection$schema特定列的现有对象。
arrow::open_dataset
datase_connection$schema
但是,我不知道该怎么做。
r apache-arrow
apache-arrow ×1
r ×1