小编Luk*_*son的帖子

如何使用Genia Corpus训练斯坦福分析器?

我为Stanford Parser创建一个新模型有一些问题.

我还从斯坦福下载了最新版本:http: //nlp.stanford.edu/software/lex-parser.shtml

在这里,Genia Corpus有2种格式,xml和ptb(Penn Treebank).

Standford Parser可以用ptd文件训练; 然后我下载了Genia Corpus,因为我想使用生物医学文本:

http://categorizer.tmit.bme.hu/~illes/genia_ptb/ (链接不再可用) (genia_ptb.tar.gz)

然后,我有一个简短的Main类来获得一个生物医学句子的依赖表示:

    String treebankPath = "/stanford-parser-2012-05-22/genia_ptb/GENIA_treebank_v1/ptb";

    Treebank tr = op.tlpParams.diskTreebank();
    tr.loadPath(treebankPath);  
    LexicalizedParser lpc=LexicalizedParser.trainFromTreebank(tr,op);
Run Code Online (Sandbox Code Playgroud)

我尝试了不同的方法,但始终得到相同的结果.

我在最后一行有一个错误.这是我的输出:

Currently Fri Jun 01 15:02:57 CEST 2012
Options parameters:
useUnknownWordSignatures 2
smoothInUnknownsThreshold 100
smartMutation false
useUnicodeType false
unknownSuffixSize 1
unknownPrefixSize 1
flexiTag true
useSignatureForKnownSmoothing false
parserParams edu.stanford.nlp.parser.lexparser.EnglishTreebankParserParams
forceCNF false
doPCFG true
doDep false
freeDependencies false
directional true
genStop true
distance true
coarseDistance false
dcTags false
nPrune false
Train parameters: smooth=false …
Run Code Online (Sandbox Code Playgroud)

java nlp stanford-nlp

93
推荐指数
1
解决办法
4250
查看次数

排除git中的.svn文件夹

我试图排除subversion的文件夹被git跟踪.我为.git/info/exclude尝试了几种不同的设置,但它似乎不起作用.我会使用git-svn,但要求访问权限让它起作用很麻烦,所以我宁愿通过排除文件夹来解决这个问题.

我想排除".svn/entries"

我已经尝试将以下行添加到.git/info/exlude:.svn条目.svn/entries 条目 svn

无论我尝试什么,当运行git status时,.svn条目都会出现

svn git

68
推荐指数
4
解决办法
4万
查看次数

使用空格而不是制表符进行缩进的客观原因是什么?

根据PSR-2标准,是否有客观原因使用空格而不是制表符来缩进文件,有人可以提供:

  • 事实,
  • 引用
  • 专业知识

PSR-2标准的基础?

PSR-2标准的作者想到的不仅仅是"外观和感觉",不仅仅是基于观点的东西,很多人都难以理解为什么在团队合作中空间更好.

接受答案的解释:

根据Farsides的回答:存储库事物可能是为什么空间在PSR-2中被解释为缩进工具的确切情况.PSR-2是为协助团队合作而开发的标准.行开头处的单个意外空间 - 使用制表符时 - 可能在IDE中不可见,并且可能会潜入存储库.如果有几个人在同一个文件上工作,很可能会产生不必要的冲突.使用空格而不是标签可以轻松捕捉到眼球上的这种意外空间,这可能是一个原因,为什么使用它们成为标准.

php code-formatting psr-2

9
推荐指数
3
解决办法
3499
查看次数

PHP文件是否有可能在执行时自行删除?

我有一个PHP文件" install.php ",它处理其他脚本的安装.我希望此文件在运行后删除自身及其包含的文件夹.

这可能吗?

php

8
推荐指数
1
解决办法
4222
查看次数

CRYPT_BLOWFISH 中盐的长度

在 PHP 手册中指出:

CRYPT_BLOWFISH - Blowfish 使用盐进行散列,如下所示:“$2a$”,一个两位数的成本参数,“$”,以及来自字母表“./0-9A-Za-z”的 22 位数字。

我意识到长度是 22。我编写了以下代码并注意到salt的输出长度是21

$encoded = crypt('pass','$2a$08$QAZXSWEDCVFRTGBNHYUJMK'); // Lenght of Q . . . K is 22
echo $encoded;
Run Code Online (Sandbox Code Playgroud)

输出:

$2a$08$QAZXSWEDCVFRTGBNHYUJM./CR85.t4YytTnmLXsRJMfbYWopbT8Nu

K中不存在:QAZXSWEDCVFRTGBNHYUJM

有什么我不明白的吗?

php bcrypt

4
推荐指数
1
解决办法
682
查看次数

如何在使用robocopy时跳过现有和/或相同大小的文件

我有这个代码,感谢这个论坛:

@echo on
set source="R:\Contracts\"
set destination="R:\Contracts\Sites"

::Not sure if this is needed
::It guarantees you have a canonical path (standard form)
for %%F in (%destination%) do set destination="%%~fF"

for /r %source% %%F in (.) do if "%%~fF" neq %destination% ROBOCOPY "%%F" %destination% *.srt *.pdf *.mp4 *.jpg /COPYALL /R:0

Pause
Run Code Online (Sandbox Code Playgroud)

如果文件存在,我不确定上面的代码是否具有"SKIP命令",如果文件大小相同,我不确定是否跳过.

400个文件似乎需要很长时间.我想尽快将它改为40000文件.

谢谢.

batch-file robocopy

2
推荐指数
1
解决办法
5万
查看次数

标签 统计

php ×3

batch-file ×1

bcrypt ×1

code-formatting ×1

git ×1

java ×1

nlp ×1

psr-2 ×1

robocopy ×1

stanford-nlp ×1

svn ×1