小编Non*_*ype的帖子

我无法找到任何好的网络抓取基于Java的API.我需要抓取的网站也没有提供任何API; 我想使用一些网页遍历所有网页,pageID并在其DOM树中提取HTML标题/其他内容.

除了网络抓取之外还有其他方法吗？

72
推荐指数

6
解决办法

13万
查看次数

我有一个包含大量文件的目录(~1mil).我需要从这个目录中选择一个随机文件.由于文件太多,os.listdir自然需要永恒才能完成.

有没有办法可以绕过这个问题？也许以某种方式知道目录中的文件数量(没有列出它)并选择'n'文件,其中n是随机生成的？

目录中的文件是随机命名的.

11
推荐指数

1
解决办法

1416
查看次数

有没有办法一次将大文本文件(~60MB)读入内存(如编译器标志,以增加程序内存限制)？目前,ofstream的open函数在尝试读取此文件时会引发分段错误.

ifstream fis;
fis.open("my_large_file.txt"); // Segfaults here

该文件只包含表单的行

number_1<tabspace>number_2

即,由制表空间分隔的两个数字.

2
推荐指数

1
解决办法

1696
查看次数

c++ ×1

小编Non_ype的帖子