是否有PHP函数将命名的HTML实体转换为各自的数字HTML实体?
例如:
$str = "Oggi è un bel giorno";
echo entities_to_unicode($str); // Oggi è un bel giorno
Run Code Online (Sandbox Code Playgroud)
在此先感谢,祝你有个美好的一天!
我想只从php字符串中提取文本.
这个php字符串包含html代码,如标签等.
所以我只需要这个字符串中的简单文本.
这是实际的字符串:
<div class="devblog-index-content battlelog-wordpress">
<p><strong>The celebration of the Recon class in our second </strong><a href="http://blogs.battlefield.com/2014/10/bf4-class-week-recon/" target="_blank">BF4 Class Week</a><strong> continues with a sneaky stroll down memory lane. Learn more about how the Recon has changed in appearance, name and weaponry over the years…</strong></p>
<p> </p>
<p style="text-align:center"><a href="http://eaassets-a.akamaihd.net/battlelog/prod/954660ddbe53df808c23a0ba948e7971/en_US/blog/wp-content/uploads/2014/10/bf4-history-of-recon-1.jpg?v=1412871863.37"><img alt="bf4-history-of-recon-1" class="aligncenter" src="http://eaassets-a.akamaihd.net/battlelog/prod/954660ddbe53df808c23a0ba948e7971/en_US/blog/wp-content/uploads/2014/10/bf4-history-of-recon-1.jpg?v=1412871863.37" style="width:619px" /></a></p>
Run Code Online (Sandbox Code Playgroud)
我想从字符串中显示:
The celebration of the Recon class in our second BF4 Class Week continues with a sneaky stroll down memory lane. Learn more about how the …Run Code Online (Sandbox Code Playgroud) 每一行都是一个字符串
 4
 minutes
 12
 minutes
 16
 minutes
Run Code Online (Sandbox Code Playgroud)
我能够删除Â成功使用str_replace但不删除HTML实体.我发现了这个问题:如何删除html特殊字符?
但是preg_replace并没有完成这项工作.如何删除HTML实体和A?
编辑:
我想我应该早点说过:我正在使用DOMDocument::loadHTML()和DOMXpath.
编辑:
因为这似乎是一个编码问题,我应该说这实际上是所有单独的字符串.
我正在访问的Web服务发送以下响应...
<strong>result</strong>
Run Code Online (Sandbox Code Playgroud)
如何剥离这些编码标签的字符串?
有很多关于在 PHP 中将 HTML 实体和特殊字符转换为 UTF8 文本的问题和文档。还有 PHP 文档本身,例如 thishtmlspecialchars_decode()和 this html_entity_decode()。但是,我找不到任何函数/解决方案清楚地描述如何将任何 HTML 字符和特殊实体转换为 UTF-8 文本。他们都说“如果你想这样做,那就这样做”等等。但没有任何解决方案指出“拥有人类可以阅读的纯 UTF-8 文本,然后这样做”。
我问的原因是我真的没有测试用例。我正在读取一个数据库,它是多语言的。然而,唯一的保证是字符是 HTML 格式的,我需要将它们转换为 UTF-8,以便理解这些语言的人可以阅读。现在,我该怎么做呢?清理/解码输入使其成为纯文本的正确方法是什么?
谢谢。
这是一个更新,从评论中可以清楚地看出我没有正确地提出问题。我的数据库包含文本。我想将该文本(包含 HTML 实体和特殊字符)转换为可以在网页上向最终用户显示的 UTF-8 文本。数据库中的文本是用多种语言编写的(例如法语、阿拉伯语、英语等)。所有这些都可以包含特殊字符的 HTML 实体。那么我怎样才能将所有这些转换为 UTF-8 文本,以便理解这些语言的人可以阅读呢?我喜欢删除那些特殊字符并将它们转换为人类可以阅读的内容。
我有一个仅包含 HTML 实体的文本,例如<, 我需要将其全部删除并仅获取文本内容:
 Hello there<testdata>
Run Code Online (Sandbox Code Playgroud)
所以,我需要从这个部分得到Hello there和testdata。有没有办法使用负前瞻来做到这一点?
我尝试了以下方法:/((?!&.+;).)+/ig但这似乎效果不佳。那么,我如何才能从那里提取所需的文本?