The*_*pus 3 python string split urllib2 beautifulsoup
我有一个html文件,我只检索文本正文
我想打印一行
现在我打印
for line in newName.body(text=True):
print line
Run Code Online (Sandbox Code Playgroud)
这给了我身体里的一切,我希望打印出来
for line in newName.body(text=True):
print line[257:_____] # this is where i need help
Run Code Online (Sandbox Code Playgroud)
而不是_ _或选择另一个数字结束我希望它转到换行符,所以它看起来像
for line in newName.body(text=True):
print line[257:'\n']
Run Code Online (Sandbox Code Playgroud)
然而,这个剂量工作如何使我的工作?
我正在工作的文本位于我想要/ pre/body的文本之前
您可以使用.partition()方法获取第一行:
first_line = newName.body.getText().partition("\n")[0]
Run Code Online (Sandbox Code Playgroud)
假设newName是一个BeautifulSoup对象.它通常被命名soup.
要从<pre>html中的第一个标记获取文本:
text = soup.pre.string
Run Code Online (Sandbox Code Playgroud)
要获取文本中的行列表:
list_of_lines = text.splitlines()
Run Code Online (Sandbox Code Playgroud)
如果要在文本中保留行尾标记:
list_of_lines = text.splitlines(True)
Run Code Online (Sandbox Code Playgroud)
要从列表中获取第i行:
ith_line = list_of_lines[i]
Run Code Online (Sandbox Code Playgroud)
注意:从零开始的索引,例如,i = 2对应于第3行.
| 归档时间: |
|
| 查看次数: |
8482 次 |
| 最近记录: |