我是一名电气工程师,他转向计算机科学家.我很难理解为什么在C++中有这么多东西几乎相同但不完全相同.一个例子是shortVS intVS unsigned intVS size_tVS long intVS long long intVS uint8_t(我不知道是否有指定的整数任何其他方式).它似乎使语言不必要地变得复杂.
可能或应该size_t被替换或者是否有任何功能无法以其他方式使用?
[编辑]
在有用的答案之后,还有一些我还没有完全看到的东西.size_t一些人建议,在便携性和性能方面很有用.但是有多大帮助,是否有一种定量方法或数字证据来衡量优势而不仅仅是让int所有兄弟退休?
我有一个大约500.000行的大数据集.他们每个人都是字符串.我想将所有行修剪为固定大小.
我找到了这个:
dt$rev <- strtrim(dt$rev, width=max_len)
Run Code Online (Sandbox Code Playgroud)
但是这需要太长时间.有更快的方法吗?
深度学习最近是一场革命,它的成功与我们目前可以管理的大量数据和GPU的概括有关.
所以这就是我面临的问题.我知道深层神经网络具有最佳性能,毫无疑问.但是,当训练样本的数量巨大时,它们具有良好的性能.如果训练样本的数量较少,则最好使用SVM或决策树.
但是什么是巨大的?什么是低?在本文的人脸识别(FaceNet by Google)中,他们展示了性能与失败的关系(可以与训练样例的数量相关)
他们使用了100M到200M的训练样例,这是非常大的.
我的问题是:有没有任何方法可以提前预测我需要在深度学习中取得良好表现的训练样例数量?我之所以这样说是因为如果性能不好,手动分类数据集是浪费时间的.
machine-learning training-data neural-network deep-learning conv-neural-network