我正在使用PHP的DOMDocument来解析和规范化用户提交的HTML,使用该loadHTML方法解析内容,然后通过以下方式获得格式良好的结果saveHTML:
$dom= new DOMDocument();
$dom->loadHTML('<div><p>Hello World');
$well_formed= $dom->saveHTML();
echo($well_formed);
Run Code Online (Sandbox Code Playgroud)
这可以很好地解析片段并添加适当的结束标记.问题是,我也越来越一堆标签,我不想如<!DOCTYPE>,<html>,<head>和<body>.我知道每个格式良好的HTML文档都需要这些标记,但我正在规范化的HTML片段将被插入到现有的有效文档中.
如何编写一个函数,可以将带有HTML标记的字符串剪切为N长度的字符串,而不会在执行此操作时破坏HTML标记.
返回的字符串不需要长度为N个字符.它可以在N长字符串边缘的标签之前或之后剪切它.
Visit <a href="www.htz.hr">Croatia</a> this summer.
Run Code Online (Sandbox Code Playgroud)
CutIt(9) 应该回来
Visit
Run Code Online (Sandbox Code Playgroud)
要么
Visit <a href="www.htz.hr">Croatia</a>
Run Code Online (Sandbox Code Playgroud)