小编mal*_*man的帖子

使用beautifulsoup在换行符之间提取文本(例如<br />标签)

我有一个更大的文档中的以下HTML

<br />
Important Text 1
<br />
<br />
Not Important Text
<br />
Important Text 2
<br />
Important Text 3
<br />
<br />
Non Important Text
<br />
Important Text 4
<br />

Run Code Online (Sandbox Code Playgroud)

我目前正在使用BeautifulSoup来获取HTML中的其他元素,但我还没有找到一种方法来获取<br />标记之间的重要文本行.我可以隔离并导航到每个<br />元素,但无法找到获取文本的方法.任何帮助将不胜感激.谢谢.

html python beautifulsoup html-parsing

mal*_*man

2011 03-12

16
推荐指数

2
解决办法

3万
查看次数

使用 PIL（Python 图像库）绘制希伯来语文本时，niqqud 未正确对齐

我正在使用 Pillow / PIL 用 nikud 绘制希伯来字母。我注意到 nikudim（nikud 的复数形式）没有正确对齐，有时会与其他字母重叠。

\n\n

有什么建议的修复方法吗？我尝试了几种字体，它们似乎都有自己的问题。

\n\n

这是我正在使用的代码。

\n\n

from bidi.algorithm import get_display\nfrom PIL import Image, ImageDraw, ImageFont\n\nfonts = [\n    (\'Tammey FranckCLM\', \'/PATH/TO/FONT/TaameyFrankCLM-Medium.ttf\'),\n    (\'Times New Roman\', \'/PATH/TO/FONT/Times New Roman.ttf\'),\n    (\'Arial\', \'/PATH/TO/FONT/Arial.ttf\')\n]\n\nim = Image.new(mode=\'RGBA\', size = (1000, 1000), color = (0, 0, 0, 255))\ndraw = ImageDraw.Draw(im)\n\nheight = 100\nfor f in fonts:\n    fnt = ImageFont.truetype(f[1], 40)\n    text = \'\xd7\xa2\xd6\xb8\xd7\x9c\xd6\xb5\xd7\x99\xd7\xa0\xd7\x95\xd6\xbc\'\n    text_bidi = get_display(text, base_dir=\'R\')\n    draw.text((100, height), f[0], font=fnt, fill=(255, 255, 255))\n    draw.text((500, height), text_bidi, font=fnt, fill=(255, 255, 255))\n …

Run Code Online (Sandbox Code Playgroud)

python hebrew python-imaging-library python-3.x

mal*_*man

2017 01-03

5
推荐指数

0
解决办法

380
查看次数