具有明确数字答案的问题数据库

dre*_*ves 14 language-agnostic parsing

我(和合作黑客)正在构建一种受这篇博客文章启发的琐事游戏:http: //messymatters.com/calibration.我们的想法是给出置信区间并学习如何校准(当你"90%肯定"时,你应该在90%的时间内做到正确).

因此,我们正在寻找具有明确数字答案的数千个问题.而且,他们不应该太无聊.有很多随机统计数据 - 例如,不同国家的封闭水域 - 会让游戏麻木不仁.像经典电影的发行日期之类的东西更有趣(对大多数人来说).

我们发现的其他有趣的包括奥运会记录,不同职业的收入中位数,着名发明的日期和名人年龄.顺便说一句,刮掉上面的内容是我提出这个问题的理由:将 HTML表从给定的URL中删除为CSV

所以,如果你知道有趣的数字事实的其他来源(以可解析的形式),我渴望指向它们.谢谢!

pol*_*nts 5

视频游戏类别

vgchartz.com有各种视频游戏和硬件性能图表.

示例查询:

有足够的数据可用于以下问题:

  • 在Y年/销售第一周销售了多少硬件/标题X?
  • 标题X超出标题Y(在它们各自的前N周销售中)的比例/比例是多少?

流行音乐类

billboard.com就是您所需要的.

维基百科链接

除销售数据外,您还可以询问有关图表位置的查询,例如:

  • 在图表Z的Y类中,歌曲X的位置/艺术家X的歌曲数量是多少?

充分利用您的数据

您可以从大多数列表中获得明确的数字Q/A. 以TIME.com All Time 100 Novels等名单为例

可以提出的一些通用问题是:

  • 在给定的时间段内写了多少?
    • 十年,一年,乔治布什总统,9/11之前,等等.
  • 标题X和标题Y之间的排名差距是多少?
    • 像这样的成对查询真正充分利用了您的数据!

您可以使用任何给定的前100个列表执行此操作:


历史类别

historyorb.com只是一个例子.URL和HTML非常易于使用.

有许多类似的网站,例如brainyhistory.com.

您还可以使用这些日期与其他数据"交叉"(例如上面的前100个小说示例).


电影类别

互联网电影数据库是当然的...... 互联网电影数据库!