war*_*ren 7 php mysql url storage
在快速谷歌搜索中阅读了几个点击后,在确定平均URL长度时似乎没有很多一致性.
我知道IE的最大URL长度为2083个字符(从这里开始) - 所以我有一个很好的最大值.
我担心的是我在PHP中编写了一个URL缩短程序(类似于 SO上的其他一些问题),并希望确保我不太可能超出托管它的服务器的存储能力.
如果所有的URL都是IE的最大值,那么2^32就不适合任何地方 - 它需要2K x 4B ~= 8TB存储:一种不切实际的期望.
如果没有添加修剪功能(即清除"旧的"缩短的URL),那么计算应用程序存储使用情况的最安全的方法是什么?
大约34个字符是安全的猜测吗?如果是这样,那么完全填充(使用int主键类型)数据库将咀嚼292GB的空间(对于可能想要存储的任何元数据,双重146GB).
这样的应用程序的最佳猜测是什么?
Hug*_*ney 22
如果没有索引整个互联网,这可能是不可知的,但根据Kelvin Tan对来自78,764个独特域的6,627,999个唯一URL的数据集的分析,答案是76.97:
平均值: 76.97
标准差: 37.41
95%置信区间: 157
99.5%置信区间: 218
我不确定什么是典型的,但在我们请求数据库中的 11,000 个 url 中,平均长度为 62 个字符。有数百个包含数百个字符的网址。最长的是 1689 个字符的 Google 翻译链接。
top 10 len(producturl):
1689
792
707
693
647
606
574
569
562
560
Run Code Online (Sandbox Code Playgroud)
示例网址 647 个字符:
PS 出于估计目的,您应该在应用标准偏差以排除可能会扭曲您的平均值的异常值后从某些数据集进行推断。