如果您的.csv文件中大多数变量的大多数值都是重复的,则该文件的最终文件大小将不会很小,因为没有压缩。但是,如果将.csv文件读入 R 并将适当的变量强制转换为因子,那么数据帧或 tibble 是否会产生某种压缩优势?在整个数据帧或小标题中重复因素似乎是一个很好的压缩机会,但我不知道这是否真的发生。
.csv
我尝试在网上搜索这个问题,但没有找到答案。我不确定在哪里寻找因素的实施方式。
compression r r-factor
compression ×1
r ×1
r-factor ×1