我在 Google 和各种论坛上搜索了大型 XML 文件,但除了 1.0 GB 且对我的需求来说太大的 DBLP 之外,没有找到任何东西。我需要 30-50 MB、100-300 MB 和 500 MB 之类的集。有谁知道吗?
ps 不要提出数据生成器,因为我需要真实数据才能用于有意义的查询测试。
最后我找到了很好的数据集。它们位于:http : //dumps.wikimedia.org/mirrors.html 这些是来自各种维基(包括维基百科)的数据集。人们可能会发现从 10MB 到 500-600MB 的各种大小的数据集。