大量的样本文件

Sag*_*tay 1 sample

有谁知道在哪里可以找到各种主题的大量样本文件库?我正在寻找至少几千个文件(办公室或PDF应该没问题)以便测试一些算法......文件应该有一些共同点 - 例如,一千个与编程有关的文档,另外一千个与编程相关的文档生态学等...

谁知道我能在哪里得到它?

Kaz*_*zar 6

你尝试过使用维基百科吗?创建一个脚本:

  1. 请致电http://en.wikipedia.org/wiki/Special:Random获取随机页面

  2. 跟随生成的重定向,将?printable = yes附加到url的末尾(以便删除布局crud) - 使用wget执行这两个步骤,或者等效,它将为您重定向.

  3. 通过html-> pdf转换器管理生成的html内容.

  4. 重复1000次.

这应该会为您提供各种各样的内容.