目前我在键入这个时遇到了麻烦,因为根据top我的处理器是100%而我的内存是85.7%,所有这些都被python占用.
为什么?因为我让它通过一个250兆字节的文件来删除标记.250美元,就是这样!我一直在使用许多其他模块和东西在python中操作这些文件; BeautifulSoup是第一个给我带来如此小的问题的代码.如何使用近4个RAM来操作250megs的HTML?
我发现(在stackoverflow上)并且一直在使用的单行是这样的:
''.join(BeautifulSoup(corpus).findAll(text=True))
Run Code Online (Sandbox Code Playgroud)
此外,这似乎删除了所有BUT标记,这与我想要做的相反.我确信BeautifulSoup也能做到这一点,但速度问题仍然存在.
有没有什么可以做类似的事情(删除标记,可靠地保留文本)并且不需要Cray运行?
超奇怪,没有?违规代码:
def main():
"""
main function
"""
# Argument handling
args = sys.argv[1:]
if not args:
print "usage is: ...
Run Code Online (Sandbox Code Playgroud)
第三个引用是我得到通常的缩进错误:
>>>Import someScript
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "someScript.py", line 24
"""
^
Run Code Online (Sandbox Code Playgroud)
如果我删除了注释(显然我不想),那么要定义的下一个函数会在其注释的同一位置获得相同的错误.如果我删除函数中的所有注释,则错误消失.
我不明白!为什么期望有缩进?我正在写Komodo编辑部分因为它不会让你混合空格和标签,但只是为了确保我做了一个搜索,当然,没有friggin标签.如果有的话,不管怎么说都没有意义.
什么给,大师?