小编Non*_*ype的帖子

使用Java进行Web抓取

我无法找到任何好的网络抓取基于Java的API.我需要抓取的网站也没有提供任何API; 我想使用一些网页遍历所有网页,pageID并在其DOM树中提取HTML标题/其他内容.

除了网络抓取之外还有其他方法吗?

java frameworks web-scraping

72
推荐指数
6
解决办法
13万
查看次数

在Python中从目录(包含大量文件)中选择随机文件

我有一个包含大量文件的目录(~1mil).我需要从这个目录中选择一个随机文件.由于文件太多,os.listdir自然需要永恒才能完成.

有没有办法可以绕过这个问题?也许以某种方式知道目录中的文件数量(没有列出它)并选择'n'文件,其中n是随机生成的?

目录中的文件是随机命名的.

python file

11
推荐指数
1
解决办法
1416
查看次数

用C++将大文本文件读入内存

有没有办法一次将大文本文件(~60MB)读入内存(如编译器标志,以增加程序内存限制)?目前,ofstream的open函数在尝试读取此文件时会引发分段错误.

ifstream fis;
fis.open("my_large_file.txt"); // Segfaults here
Run Code Online (Sandbox Code Playgroud)

该文件只包含表单的行

number_1<tabspace>number_2
Run Code Online (Sandbox Code Playgroud)

即,由制表空间分隔的两个数字.

c++ file-io large-files

2
推荐指数
1
解决办法
1696
查看次数

标签 统计

c++ ×1

file ×1

file-io ×1

frameworks ×1

java ×1

large-files ×1

python ×1

web-scraping ×1