大型公共数据集?

65 database performance benchmarking dataset

我正在寻找一些大型公共数据集,特别是:

  1. 已匿名化的大型示例Web服务器日志.

  2. 用于数据库性能基准测试的数据集.

任何其他指向大型公共数据集的链接都将受到赞赏.我已经了解亚马逊的公共数据集:http: //aws.amazon.com/publicdatasets/

MrG*_*mez 29

1.已匿名化的大型示例Web服务器日志.

这些工作开始于:

有比这些更多的数据集(参见其他答案的全部内容),但这是符合您原始标准的最低水果.作为奖励,如果您有他们可能知道的特定需求,他们会有联系链接.

2.用于数据库性能基准测试的数据集.

这听起来有点用词不当,因为您要求的经验数据集描述明确定义的 算法 问题.具体来说,听起来您正在尝试使用明确定义的规范化关系数据来查找可用于实时测试和基准测试各种数据库系统的数据集,这些数据可用作一组测试用例来确定最有效的解决方案,满足您的需求.

我不同意这种做法.而不是找到一连串的数据库系统及其固定的实现,最好将这些系统的算法 保证作为您的第一个调用端口.一旦确定了满足您需求的算法约束,您就可以研究一组固定解决方案,您可以对其效率进行基准测试,例如索引,排序,搜索,插入,删除和检索.

Wikipedia提供了一篇关于数据库测试概念的简明文章,您可以使用它来确定和编写用于基准测试性能的测试用例.例如,您可以使用不可知的数据访问接口(如JDBCJDBC Benchmark)来确定每个操作的相对时间.从这里,您可以磨练正确的解决方案.

总之,研究首先确定数据库的保证.一旦确定了一组候选解决方案,您可以通过测试(或以其他方式确定)每个所需操作的恒定时间性能来选择这些解决方案.


cae*_*301 24

Based on Quora answers and my personal collections in my studies, an awesome-public-datasets repository was created and updated lively on GitHub:

Below is a snapshot version of this list. For a newest list, please visit Github:

This list of public data sources are collected and tidied from blogs, answers, and user responses. Most of the data sets listed below are free, however, some are not. This list comes from https://github.com/caesar0301/awesome-public-datasets.

Climate

经济学

金融

Biology

Physics

Healthcare

GeoSpace

Transportation

Government

Data Challenges

Machine Learning

Natural Language

Image Processing

Time Series

Social Sciences

Complex Networks

Jas*_*n S 9

只是一个想法:


kem*_*002 3

对于网络服务器日志,您始终可以根据需要的格式生成它们。如果您要针对它测试代码等,则必须根据您想要存储/解析的字段进行定制。

对于用于数据库性能基准测试的数据集,您可能需要查看可以为您生成数据的工具。红门有一个很棒的,价格不贵。