小编Geo_ina的帖子

Python - 轻松刮取谷歌,下载针对特定搜索的前N个点击(整个.html文档)？

是否有一种简单的方法可以刮取谷歌并为给定的搜索编写前N个(比如1000).html(或其他)文档的文本(只是文本)？

例如,想象一下搜索短语"大坏狼"并从前1000个点击下载文本 - 即实际从这1000个网页下载文本(但只是那些页面,而不是整个网站).

我假设这会使用urllib2库？如果有帮助我使用Python 3.1.

python urllib2 google-search web-scraping

10
推荐指数

1
解决办法

7426
查看次数

Python - 使用BeautifulSoup从URL列表中删除文本的最简单方法

使用BeautifulSoup从少数几个网页(使用URL列表)中删除文本的最简单方法是什么？它甚至可能吗？

最好的,乔治娜

python screen-scraping beautifulsoup web-scraping

5
推荐指数

1
解决办法

5125
查看次数

Python - 令人难以置信的大型矩阵的最佳数据结构

我需要创建大约200万个向量,每个向量1000个插槽(每个插槽只包含一个整数).

处理这些数据的最佳数据结构是什么？可能是我高估了所涉及的处理/内存量.

我需要迭代一组文件(总共大约34.5GB)并且每次在一行上遇到200万个项目中的一个(每个对应一个向量)时更新向量.

我可以轻松地为此编写代码,但我知道它不足以处理数据量,这就是为什么我要问你专家.:)

最好的,乔治娜

python vector large-data-volumes matrix data-structures

3
推荐指数

1
解决办法

1291
查看次数

Python - Python 3.1似乎无法处理UTF-16编码的文件？

我正在尝试运行一些代码来简单地浏览一堆文件并将那些碰巧是.txt文件的文件写入同一个文件中,删除所有空格.这里有一些简单的代码可以解决这个问题:

for subdir, dirs, files in os.walk(rootdir):
for file in files:
    if '.txt' in file:
        f = open(subdir+'/'+file, 'r')
        line = f.readline()
        while line:
            line2 = line.split()
            if line2:
                output_file.write(" ".join(line2)+'\n')
            line = f.readline()
        f.close()

Run Code Online (Sandbox Code Playgroud)

但相反,我收到以下错误:

文件"/usr/lib/python3.1/codecs.py",第300行,在解码中(结果,消耗)= self._buffer_decode(data,self.errors,final)UnicodeDecodeError:'utf8'编解码器无法解码字节0xfe在位置0:意外的代码字节

事实证明,这些.txt文件都是UTF-16(根据FireFox,无论如何).我以为Python 3.x应该能够处理任何类型的字符编码？

最好的,乔治娜

python utf-8 utf-16 character-encoding

1
推荐指数

2
解决办法

3976
查看次数

标签统计

web-scraping ×2

beautifulsoup ×1

character-encoding ×1

data-structures ×1

google-search ×1

large-data-volumes ×1

screen-scraping ×1