我的系统中保存了一个HUUUGE HTML文件,其中包含产品目录中的数据.数据的结构使得对于每个产品记录,名称在两个标签(名称)和(/名称)之间.
每个产品最多有3个属性:name,productID和color,但并非所有产品都具有所有这些属性.
如何在不混淆产品属性的情况下为每种产品提取这些数据?该文件也是50兆字节!
代码示例....
<name>'hat'</name>
blah blah blah
<prodId>'1829493'</prodId>
blah blah blah
<color>'cyan'</color>
blah blah
blah blah blah
blah blah blah
<name>'shirt'</name>
blah blah blahblah blah blah
<prodId>'193'</prodId>
<name>'dress'</name>
blah blah blah
blah blah blah
<prodId>'18'</prodId>
<color>'dark purple'</color>
Run Code Online (Sandbox Code Playgroud)