小编mal*_*man的帖子

使用beautifulsoup在换行符之间提取文本(例如<br />标签)

我有一个更大的文档中的以下HTML

<br />
Important Text 1
<br />
<br />
Not Important Text
<br />
Important Text 2
<br />
Important Text 3
<br />
<br />
Non Important Text
<br />
Important Text 4
<br />
Run Code Online (Sandbox Code Playgroud)

我目前正在使用BeautifulSoup来获取HTML中的其他元素,但我还没有找到一种方法来获取<br />标记之间的重要文本行.我可以隔离并导航到每个<br />元素,但无法找到获取文本的方法.任何帮助将不胜感激.谢谢.

html python beautifulsoup html-parsing

16
推荐指数
2
解决办法
3万
查看次数

使用 PIL(Python 图像库)绘制希伯来语文本时,niqqud 未正确对齐

我正在使用 Pillow / PIL 用 nikud 绘制希伯来字母。我注意到 nikudim(nikud 的复数形式)没有正确对齐,有时会与其他字母重叠。

\n\n

有什么建议的修复方法吗?我尝试了几种字体,它们似乎都有自己的问题。

\n\n

这是我正在使用的代码。

\n\n
from bidi.algorithm import get_display\nfrom PIL import Image, ImageDraw, ImageFont\n\nfonts = [\n    (\'Tammey FranckCLM\', \'/PATH/TO/FONT/TaameyFrankCLM-Medium.ttf\'),\n    (\'Times New Roman\', \'/PATH/TO/FONT/Times New Roman.ttf\'),\n    (\'Arial\', \'/PATH/TO/FONT/Arial.ttf\')\n]\n\nim = Image.new(mode=\'RGBA\', size = (1000, 1000), color = (0, 0, 0, 255))\ndraw = ImageDraw.Draw(im)\n\nheight = 100\nfor f in fonts:\n    fnt = ImageFont.truetype(f[1], 40)\n    text = \'\xd7\xa2\xd6\xb8\xd7\x9c\xd6\xb5\xd7\x99\xd7\xa0\xd7\x95\xd6\xbc\'\n    text_bidi = get_display(text, base_dir=\'R\')\n    draw.text((100, height), f[0], font=fnt, fill=(255, 255, 255))\n    draw.text((500, height), text_bidi, font=fnt, fill=(255, 255, 255))\n …
Run Code Online (Sandbox Code Playgroud)

python hebrew python-imaging-library python-3.x

5
推荐指数
0
解决办法
380
查看次数