当使用html2text python包将html转换为markdown时,它会在文本中添加'\n'.在http://www.aaronsw.com/2002/html2text/上尝试演示时,我也看到了这种行为
有没有办法改变这个?当然我可以自己删除它们,但原始文本中可能会出现'\n',我不想删除它们.
html2text('Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.')
u'Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod\ntempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam,\nquis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo\nconsequat. Duis aute irure dolor in reprehenderit in voluptate velit esse\ncillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non\nproident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n\n'
Run Code Online (Sandbox Code Playgroud)
查看源代码html2text.py,看起来您可以通过设置BODY_WIDTH为禁用包装行为0.像这样的东西:
import html2text
html2text.BODY_WIDTH = 0
text = html2text.html2text('...')
Run Code Online (Sandbox Code Playgroud)
当然,BODY_WIDTH全局重置会改变模块的行为.如果我需要访问此功能,我可能会尝试修补模块,创建一个参数html2text()来修改每个调用的此行为,并将此修补程序提供给作者.
在最新版本的html2text中执行以下操作:
import html2text
h = html2text.HTML2Text()
h.body_width = 0
note = h.handle("<p>Hello, <a href='http://earth.google.com/'>world</a>!")
Run Code Online (Sandbox Code Playgroud)
这消除了html2text否则的自动换行
| 归档时间: |
|
| 查看次数: |
2064 次 |
| 最近记录: |