hug*_*omg 14 sql database relational-database
在学习新的编程语言时,总会有一些传统的问题让你自己感动.例如,Hello world和Fibonacci将展示如何读取输入,打印输出和计算功能(基本上可以解决所有问题的面包和黄油)虽然它们非常简单,但它们非常值得花时间(并且总是存在的)通过计算bignums语言中可笑的大数的阶乘来获得一些乐趣
所以现在我正试图掌握一些SQL系统和我能想到的所有教科书示例都涉及像"学生"或"员工"这样令人烦恼的无聊表.我可以使用哪些好的备用数据集?我正在寻找一些东西(按重要性排序)......
在最糟糕的情况下,我至少假设应该有某种基准数据集,至少符合前两个标准,我也很乐意听到这一点.
Mat*_*hen 12
Microsoft世界中的基准数据库是Northwind.一个类似的开源(EPL)是Eclipse的Classic Models数据库.
据我所知,你不能自动生成.
然而,Northwind"进口和出口来自世界各地的特色食品",而Classic Models则销售"经典汽车的比例模型".两者都非常有趣.:)
小智 10
SQL是一种查询语言,而不是一种过程语言,因此,除非您将使用PL/SQL或类似的东西,否则您的示例将操纵数据.
所以这对我来说很有趣 - 数据挖掘!去:
并下载他们的微数据(你需要创建一个帐户,但它是免费的).
您需要编写一个小脚本来将固定宽度文件注入到数据库中,这本身应该很有趣.并且您需要编写一个小脚本来自动创建基于解析其元文件的字段(因为有很多).这也很有趣.
然后,您可以开始提问.假设问题与房价有关:
假设您希望了解过去40年来收入人口排名前10%的人的房价价值变化情况.然后限制他们是否住在加州.看看收入与抵押贷款支付比例之间是否存在相关性.然后按地理区域对此进行分组.然后看看那些抵押贷款负担最高的地区与租房者占用的单位百分比之间是否存在相关性.你的数据库将有一些内置的统计函数,但你也可以自己编程自己 - 所以correl可能相当于fibonnacci.然后编写一个小脚本在R中执行相同的操作,从db导入数据,操作它并存储结果.
了解DB的最佳方法是将它们用于其他目的.
一旦你玩完iPUMS,看看GEO数据,用(取决于你的数据库)像PostGis这样的东西 - 唯一的区别是iPUMS为你提供了大片的分辨率,而GIS数据有纬度/经度坐标.然后,您可以绘制美国抵押贷款负担的热图,并在不同的时间尺度上绘制这个热图.