连字预处理

MiB*_*MiB 4 php java preprocessor hyphenation

我需要一些线索来使用PHP和/或Java(当前为Spring + Hibernate)中的工具来进行内容的断字。我在包含的文件中有一些文本内容,而在数据库中有一些。所有文本都是utf-8编码的,我需要使用软连字符作为支持,这在大多数浏览器中都很常见。

因此,此存储原始:

<p> These words need hyphenation</p>
Run Code Online (Sandbox Code Playgroud)

会变成这样的东西

<p> The&shy;se wor&shy;ds need hyp&shy;he&shy;na&shy;tion</p>
Run Code Online (Sandbox Code Playgroud)

在最终加载的网页的源代码中。

任何想法如何实现这一目标?

对于没有使用服务器端代码且仅使用纯HTML源文件的情况,也欢迎使用HTML标记内包含连字符的文本编辑工具的建议。

另外,我还没有找到连字单词列表的良好来源。

End*_*oth 5

CSS3定义了客户端连字符

这意味着在支持的浏览器¹中,您只需要指定文本的语言以及对自动连字的需求即可,它将自动进行连字,而无需您进行任何工作。显然,这意味着连字符由浏览器的语言资源控制。

对于手动控制,您可以在任意希望使用的连字符处放置任意连字符,并指示浏览器仅使用那些连字符。

实际上,要查找连字符点并插入任意连字符,最好的方法可能是使用古老的TeX样式连字符方法,其中指定层次连字符或无连字符点的子词模式与要连字符的单词匹配。这些模式现已被广泛使用(包括OpenOffice,LibreOffice和Adobe InDesign),并且适用于大多数语言。

实现该算法仅需几行代码。更重要的是,也有许多语言现成的实现:PHP实现比如phpHyphenator,Java实现,像TeXHyphenator-J连字符和Java绑定的C ++实现像libhyphen的jhyphen

¹目前,Firefox,Safari和IE具有自动连字支持,而Chrome和Opera没有。