小编Wax*_*lix的帖子

从BeautifulSoup中删除大文件中的html的速度更快/更少资源拆除的方法?或者,使用BeautifulSoup更好的方法?

目前我在键入这个时遇到了麻烦,因为根据top我的处理器是100%而我的内存是85.7%,所有这些都被python占用.

为什么?因为我让它通过一个250兆字节的文件来删除标记.250美元,就是这样!我一直在使用许多其他模块和东西在python中操作这些文件; BeautifulSoup是第一个给我带来如此小的问题的代码.如何使用近4个RAM来操作250megs的HTML?

我发现(在stackoverflow上)并且一直在使用的单行是这样的:

''.join(BeautifulSoup(corpus).findAll(text=True))
Run Code Online (Sandbox Code Playgroud)

此外,这似乎删除了所有BUT标记,这与我想要做的相反.我确信BeautifulSoup也能做到这一点,但速度问题仍然存在.

有没有什么可以做类似的事情(删除标记,可靠地保留文本)并且不需要Cray运行?

html python performance parsing beautifulsoup

5
推荐指数
1
解决办法
1153
查看次数

Python:我在函数的最后3个引号(""")上得到一个"缩进块"错误.什么事了?

超奇怪,没有?违规代码:

def main():
"""
main function
"""
    # Argument handling

    args = sys.argv[1:]
    if not args:
        print "usage is: ...
Run Code Online (Sandbox Code Playgroud)

第三个引用是我得到通常的缩进错误:

>>>Import someScript
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "someScript.py", line 24
    """
      ^
Run Code Online (Sandbox Code Playgroud)

如果我删除了注释(显然我不想),那么要定义的下一个函数会在其注释的同一位置获得相同的错误.如果我删除函数中的所有注释,则错误消失.

我不明白!为什么期望有缩进?我正在写Komodo编辑部分因为它不会让你混合空格和标签,但只是为了确保我做了一个搜索,当然,没有friggin标签.如果有的话,不管怎么说都没有意义.

什么给,大师?

python comments indentation

4
推荐指数
1
解决办法
7077
查看次数