一位同事和我花了几年时间开发了一个非常酷的Matlab应用程序MDLcompress.在Matlab中,我可以输入"MDLcompress('filename.txt')",它会告诉我关于filename.txt内容的各种非常酷的东西.我们想让其他人在不下载代码,安装Matlab等的情况下使用MDLcompress.理想情况下,我们有一个简单的网页,他们从他们的机器中选择了一个文件,它被上传到我的工作站(已经是为了其他目的运行tomcat,如果这样可以使事情变得更容易),按照"matlab <MDLcompress.m filename.txt> results.txt"开始一个进程,然后在浏览器中显示results.txt或显示一个let的链接他们下载它.
麻烦的是,我的Matlab技能远远超过我的网络技能.谷歌有100个通用教程,但没有我想要的那么简单,至少不是特定于Matlab.
提前致谢
我是一个完整的Perl newb,但我确信学习Perl比在awk中解析如何解析XML更容易.我想从这个数据集中解析.sgm文件:
http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html
这是十年前来自newswire的20,000条路透社文章的集合,是针对某些类型的文本处理的标准测试集.为了简化我的perl测试,我从第一个文件中抓取了前几百行并制作了test.sgm,直到我的脚本正常工作.它开头是这样的:
<!DOCTYPE lewis SYSTEM "lewis.dtd">
<REUTERS TOPICS="YES" LEWISSPLIT="TRAIN" CGISPLIT="TRAINING-SET" OLDID="5544" NEWID="1">
<DATE>26-FEB-1987 15:01:01.79</DATE>
<TOPICS><D>cocoa</D></TOPICS>
<PLACES><D>el-salvador</D><D>usa</D><D>uruguay</D></PLACES>
<PEOPLE></PEOPLE>
<ORGS></ORGS>
<EXCHANGES></EXCHANGES>
<COMPANIES></COMPANIES>
<UNKNOWN>
C T
f0704reute
u f BC-BAHIA-COCOA-REVIEW 02-26 0105</UNKNOWN>
<TEXT>
<TITLE>BAHIA COCOA REVIEW</TITLE>
<DATELINE> SALVADOR, Feb 26 - </DATELINE><BODY>Showers continued throughout the week in
the Bahia cocoa zone, alleviating the drought since early
January and improving prospects for the coming temporao,...
Run Code Online (Sandbox Code Playgroud)
我使用了来自http://www.xml.com/pub/a/2001/05/16/perlxml.html的perl脚本作为示例,最后得到了这个,extract.pl:
use XML::DOM;
my $file = $ARGV[0];
my $parser = XML::DOM::Parser->new();
my $doc = $parser->parsefile($file); …Run Code Online (Sandbox Code Playgroud) 例如,在第5页底部的http://homepages.cwi.nl/~paulv/papers/algorithmicstatistics.pdf和第6页的顶部,他使用加号/等号和类似的加/减符号.我无法弄清楚如何制作这个符号,我想引用他的话.
有帮助吗?