Sag*_*tay 1 sample
有谁知道在哪里可以找到各种主题的大量样本文件库?我正在寻找至少几千个文件(办公室或PDF应该没问题)以便测试一些算法......文件应该有一些共同点 - 例如,一千个与编程有关的文档,另外一千个与编程相关的文档生态学等...
谁知道我能在哪里得到它?
Kaz*_*zar 6
你尝试过使用维基百科吗?创建一个脚本:
请致电http://en.wikipedia.org/wiki/Special:Random获取随机页面
跟随生成的重定向,将?printable = yes附加到url的末尾(以便删除布局crud) - 使用wget执行这两个步骤,或者等效,它将为您重定向.
通过html-> pdf转换器管理生成的html内容.
重复1000次.
这应该会为您提供各种各样的内容.
归档时间:
16 年,5 月 前
查看次数:
1471 次
最近记录: