我无法找到任何好的网络抓取基于Java的API.我需要抓取的网站也没有提供任何API; 我想使用一些网页遍历所有网页,pageID并在其DOM树中提取HTML标题/其他内容.
除了网络抓取之外还有其他方法吗?
我有一个包含大量文件的目录(~1mil).我需要从这个目录中选择一个随机文件.由于文件太多,os.listdir自然需要永恒才能完成.
有没有办法可以绕过这个问题?也许以某种方式知道目录中的文件数量(没有列出它)并选择'n'文件,其中n是随机生成的?
目录中的文件是随机命名的.
有没有办法一次将大文本文件(~60MB)读入内存(如编译器标志,以增加程序内存限制)?目前,ofstream的open函数在尝试读取此文件时会引发分段错误.
ifstream fis;
fis.open("my_large_file.txt"); // Segfaults here
Run Code Online (Sandbox Code Playgroud)
该文件只包含表单的行
number_1<tabspace>number_2
Run Code Online (Sandbox Code Playgroud)
即,由制表空间分隔的两个数字.