问题:
我有数百万笔交易的清单.每个交易都包含项目(例如"胡萝卜","苹果"),目标是生成在个别交易中经常出现的一对项目列表.据我所知,进行详尽的搜索是不可行的.
解决方案尝试
到目前为止,我有两个想法.1)随机抽样一些适当的交易部分,只检查那些或2)计算每个元素出现的频率,使用该数据计算元素偶然出现的频率,并用它来修改1的估计值.
非常感谢任何提示,替代方法,现成的解决方案或只是一般阅读建议.
编辑:
评论中的一些其他信息
不同项目数量:1,000到100,000
记忆约束:最多只有几个小时的公羊.
使用频率:或多或少一次性使用.
可用资源:20-100小时的新手程序员时间.
期望的结果列表格式:对于n个最频繁的对,项目对和一些测量它们出现的频率.
每笔交易的物品分配:截至目前未知.
我有一个包含或多或少随机图片文件的大文件夹,用于使用 Wallch 显示桌面背景。由于我注意到有些图片的分辨率太低而无法看起来不错,因此我想去掉高度低于 1000 像素左右的任何内容。
由于我最近开始使用 Ubuntu,我怀疑这可以通过在命令行上使用几行代码来完成,但我使用它的经验非常缺乏,并希望避免任何灾难性的事情,因此在尝试我的自己的。
图片总共大约 4 场演出,3000 张左右的图片,大多以 .png 或 .jpg 结尾,但有时以 .JPG 结尾,其中一些位于最多 3 层深的子文件夹中。
有什么建议?