相关疑难解决方法(0)

在HTML文件中提取两个标签之间的数据

我的系统中保存了一个HUUUGE HTML文件,其中包含产品目录中的数据.数据的结构使得对于每个产品记录,名称在两个标签(名称)和(/名称)之间.

每个产品最多有3个属性:name,productID和color,但并非所有产品都具有所有这些属性.

如何在不混淆产品属性的情况下为每种产品提取这些数据？该文件也是50兆字节!

代码示例....

<name>'hat'</name>
blah blah blah
<prodId>'1829493'</prodId>
blah blah blah
<color>'cyan'</color>

blah blah 
blah blah blah
blah blah blah

<name>'shirt'</name>
blah blah blahblah blah blah
<prodId>'193'</prodId>

<name>'dress'</name>
blah blah blah
blah blah blah
<prodId>'18'</prodId>
<color>'dark purple'</color>

Run Code Online (Sandbox Code Playgroud)

html xml matlab extract large-files

Bob*_* M.

2015 11-23

2
推荐指数

1
解决办法

7844
查看次数