是否有一种简单的方法可以刮取谷歌并为给定的搜索编写前N个(比如1000).html(或其他)文档的文本(只是文本)?
例如,想象一下搜索短语"大坏狼"并从前1000个点击下载文本 - 即实际从这1000个网页下载文本(但只是那些页面,而不是整个网站).
我假设这会使用urllib2库?如果有帮助我使用Python 3.1.
使用BeautifulSoup从少数几个网页(使用URL列表)中删除文本的最简单方法是什么?它甚至可能吗?
最好的,乔治娜
我需要创建大约200万个向量,每个向量1000个插槽(每个插槽只包含一个整数).
处理这些数据的最佳数据结构是什么?可能是我高估了所涉及的处理/内存量.
我需要迭代一组文件(总共大约34.5GB)并且每次在一行上遇到200万个项目中的一个(每个对应一个向量)时更新向量.
我可以轻松地为此编写代码,但我知道它不足以处理数据量,这就是为什么我要问你专家.:)
最好的,乔治娜
我正在尝试运行一些代码来简单地浏览一堆文件并将那些碰巧是.txt文件的文件写入同一个文件中,删除所有空格.这里有一些简单的代码可以解决这个问题:
for subdir, dirs, files in os.walk(rootdir):
for file in files:
if '.txt' in file:
f = open(subdir+'/'+file, 'r')
line = f.readline()
while line:
line2 = line.split()
if line2:
output_file.write(" ".join(line2)+'\n')
line = f.readline()
f.close()
Run Code Online (Sandbox Code Playgroud)
但相反,我收到以下错误:
文件"/usr/lib/python3.1/codecs.py",第300行,在解码中(结果,消耗)= self._buffer_decode(data,self.errors,final)UnicodeDecodeError:'utf8'编解码器无法解码字节0xfe在位置0:意外的代码字节
事实证明,这些.txt文件都是UTF-16(根据FireFox,无论如何).我以为Python 3.x应该能够处理任何类型的字符编码?
最好的,乔治娜