我收到了一个包含数十万个值的文件,在.CSV文件中格式不一致.结构可能类似于:
A,B,C,D
E,F
G,H,I,J,K,L,M,N,O
P,Q,R,S
等等.
我需要做的就是a)列出唯一值,b)计算相同的实例.很高兴在R,Excel或任何其他推荐的工具中执行此操作.
通常情况下,我会使用Google Docs'= UNIQUE和= COUNT函数之类的东西,但电子表格太大而无法加载.我也没有在Excel中找到确切的等价物,奇怪的是.
任何帮助赞赏.
如果我理解正确,这应该有效(在R中):
# Emulate your file
cat('A,B,C,D\nB,D\nA,A,F,Q,F\n', file='foo.csv')
x <- scan('foo.csv', what='', sep=',')
table(x)
#x
#A B C D F Q
#3 2 1 2 2 1
Run Code Online (Sandbox Code Playgroud)