我经常从协作者处获得数据集,这些数据集在数据集中具有不一致的变量/列命名.我的首要任务之一是重命名它们,我想在R内部完全解决这个问题.
as.Given <- c("ICUDays","SexCode","MAX_of_MLD","Age.Group")
underscore_lowercase <- c("icu_days", "sex_code", "max_of_mld","age_group")
camelCase <- c("icuDays", "sexCode", "maxOfMld", "ageGroup")
Run Code Online (Sandbox Code Playgroud)
鉴于有关命名约定不同的意见,并本着什么Python中提出,有哪些途径,从去as.Given到underscore_lowercase和/或camelCase作为R用户指定的方式吗?
编辑: 还在R/regex中找到了这个相关的帖子,特别是@rengis的答案.
我一直在想:是否有任何确凿的事实表明更短或更长的标识符更好?
例:
clrscr()
Run Code Online (Sandbox Code Playgroud)
反对
ClearScreen()
Run Code Online (Sandbox Code Playgroud)
短标识符应该更快阅读,因为字符越少但标识符越长通常更像自然语言,因此阅读速度也应该更快.
是否有其他方面表明简短或冗长的风格?
编辑:只是为了澄清:我没有问:"会什么你?在这种情况下做的." 我问理由是偏爱另一个,即这不是民意调查问题.
请,如果可以的话,添加一些原因,为什么一个宁愿一个风格比其他.
我是一名经验丰富的R用户,拥有一支由R开发人员组成的团队.但是,我发现当我们的程序开始增长时,管理和调试变得非常困难,并且作为一个团队工作.
我是一个C++/Java/Python用户,虽然这看起来与这三者中的Python最相似,但我仍然觉得很难从已知的Java和Python"最佳实践"推断到R.
寻找一本书或教程讨论编码约定和R软件工程原理,也许是OOP的东西?