标签: tokenize

如何在oracle 9i中最好地分割csv字符串

我希望能够在Oracle 9i中拆分csv字符串

我已经阅读了以下文章 http://www.oappssurd.com/2009/03/string-split-in-oracle.html

但我不明白如何使这项工作.以下是我的一些问题

  1. 这可以在Oracle 9i中使用,如果没有,为什么不呢?
  2. 是否有更好的方法来分割csv字符串然后上面提出的解决方案?
  3. 我需要创建一个新类型吗?如果是这样,我需要特定的特权吗?
  4. 我可以在函数中声明类型吗?

csv oracle tokenize

8
推荐指数
2
解决办法
3万
查看次数

令牌/ RegExp在标记Javascript时发生冲突

我正在编写一个简单的javascript tokenizer来检测基本类型:Word,Number,String,RegExp,Operator,Comment和Newline.一切都很顺利,但我无法理解如何检测当前字符是RegExp分隔符还是除法运算符.我没有使用正则表达式,因为它们太慢了.有人知道检测它的机制吗?谢谢.

javascript regex token tokenize

8
推荐指数
1
解决办法
2071
查看次数

什么是最准确的句子分裂开源工具?

我需要将文本分成句子.我正在玩OpenNLP的句子检测工具.我也听说过NLTK和Stanford CoreNLP工具.什么是最准确的英语句子检测工具?我不需要太多的NLP功能 - 只是一个很好的句子分割/检测工具.

我也听说过Lucene ......但这可能太多了.但如果它有一个kick-ass句子检测模块,那么我将使用它.

parsing nlp tokenize

8
推荐指数
1
解决办法
2019
查看次数

RegEx Tokenizer:将文本拆分为单词,数字,标点符号和间距(不要删除任何内容)

几乎这个帖子中找到了这个问题的答案(samplebias的回答); 但是我需要将一个短语分成单词,数字,标点符号和空格/制表符.我还需要这个来保持每个事件发生的顺序(该线程中的代码已经完成).

所以,我发现的是这样的:

    from nltk.tokenize import *
    txt = "Today it's   07.May 2011. Or 2.999."
    regexp_tokenize(txt, pattern=r'\w+([.,]\w+)*|\S+')
    ['Today', 'it', "'s", '07.May', '2011', '.', 'Or', '2.999', '.']
Run Code Online (Sandbox Code Playgroud)

但这是我需要提供的那种列表:

    ['Today', ' ', 'it', "'s", ' ', '\t', '07.May', ' ', '2011', '.', ' ', 'Or', ' ', '2.999', '.']
Run Code Online (Sandbox Code Playgroud)

正则表达式一直是我的弱点之一,所以经过几个小时的研究后,我仍然感到难过.谢谢!!

python regex tokenize nltk

8
推荐指数
1
解决办法
3821
查看次数

CoffeeScript或JavaScript中的基本NLP - Punkt tokenizaton,简单训练的贝叶斯模型 - 从哪里开始?

我目前的网络应用程序项目需要一点NLP:

  • 通过Punkt和类似的方式将文本标记为句子;
  • 通过从属条款打破较长的句子(通常是逗号,除非它不是)
  • 一个贝叶斯模型适合分块段落,感觉均匀,没有孤儿或寡妇,也没有尴尬的分裂(可能)

......如果你有NLTK,那么这很大程度上是一件非常容易的事情- 我会这样做:应用程序后端是龙卷风上的Django; 你认为做这些事情不是问题.

但是,我必须以交互方式提供必须使用令牌化器的用户反馈,因此我需要对数据客户端进行令牌化.

现在我实际上正在使用NLTK,通过REST API调用Tornado进程来包装NLTK函数而不是其他任何东西.目前,延迟和并发等事情显然不是最优惠的w/r/t这个ad-hoc服务,礼貌地说.我想,我应该做的是,如果不自己重新实现这个功能的咖啡/ Java版本.

然而,从我所看到的情况来看,JavaScript并没有被认为很酷,足以累积出可以在C或Python(甚至是Erlang)中找到的非常网络特定的通用库schmorgasbörd.NLTK当然是任何人的衡量标准,但我只需要几个百分点的包装.

但是现在我处于一个十字路口 - 我必须加倍努力:

  • "学习科学JavaScript技术适合重新实现算法,我最好与Facebook好友"计划,或者:
  • 不那么有趣但更具决定性的可行性"通过电线进行标记化,但过度补偿速度和编程兴趣的缺点 - 通过将函数调用提升为强大的高性能Web服务架构典范,确保无沙滩球的用户体验, Facebook看起来像Google+"选项.

或完全不同的东西.我该怎么办?喜欢开始做事.这是我的问题.我愿意接受涉及非典型方法的解决方案 - 只要你的建议不令人反感(例如"使用Silverlight")和/或时间漩涡(例如"获得计算语言学博士你的troglodyte")我就是游戏.先感谢您.

javascript nlp user-experience tokenize coffeescript

8
推荐指数
1
解决办法
1860
查看次数

Matlab拆分字符串多个分隔符

我有一个像这样的字符串单元格列表:

cellArr = 
      'folderName_fileName_no.jpg',
      'folderName2_fileName2_no2.jpg'
Run Code Online (Sandbox Code Playgroud)

我想这样做

{folderName, fileName, no},
{folderName2, fileName2, no2}
Run Code Online (Sandbox Code Playgroud)

怎么在matlab中做到?我知道我可以使用

regexp(cellArr, '_', 'split'), 
Run Code Online (Sandbox Code Playgroud)

但是我怎样才能使用多个分隔符呢?

regex string matlab split tokenize

8
推荐指数
1
解决办法
2万
查看次数

如何从具有特殊编码的单词中获取每个字符

我需要从一个单词中获取包含所有字符的数组,但是当我执行以下代码时,单词具有特殊编码的字母,如á.

$word = 'withá';

$word_arr = array();
for ($i=0;$i<strlen($word);$i++) {
    $word_arr[] = $word[$i];
}
Run Code Online (Sandbox Code Playgroud)

要么

$word_arr = str_split($word);
Run Code Online (Sandbox Code Playgroud)

我明白了:

array(6){[0] => string(1)"w"[1] => string(1)"i"[2] => string(1)"t"[3] => string(1) "h"[4] => string(1)"Ã"[5] => string(1)"¡"}

如何获取每个角色如下?

array(5){[0] => string(1)"w"[1] => string(1)"i"[2] => string(1)"t"[3] => string(1) "h"[4] => string(1)"á"}

php encoding character-encoding tokenize

8
推荐指数
1
解决办法
1071
查看次数

如何使用Node.js标记标记?

我正在构建一个iOS应用程序,其视图将来自markdown.

我的想法是能够将存储在MongoDB中的markdown解析为类似于以下内容的JSON对象:

{
    "h1": "This is the heading",
    "p" : "Heres the first paragraph",
    "link": {
        "text": "Text for link",
        "url": "http://exampledomain.com",
    }
}
Run Code Online (Sandbox Code Playgroud)

在服务器上,我正在运行Node.js,并且正在查看标记的模块,这些模块似乎是最受欢迎的模块.它让我可以访问Lexer,它标记了一些自定义对象的降价.但是当我查看对象时,它并没有标记链接.如果我继续将markdown解析为HTML,则检测到链接并且HTML看起来正确.

在查看了一些更多的模块,并且失败之后,我想也许我可以在客户端上执行此操作而发现MMMarkdown看起来很有希望,但是再次......在直接解析为HTML时工作正常,但是当介于两者之间时只是解析所谓的MMDocument的降价,它不包含Link类型的任何MMElement.

那么,我缺少的降价解析有什么基础吗?内联链接的lexing是否应该在第二轮中完成,或者其他什么?我无法理解它.

如果没有其他工作,我可能只是使用填充了来自解析的markdown的HTML的UIWebView,但是我们必须再次设计整个事情,但是使用CSS,我们已经没时间了,所以我们不能再提供双重工作.

javascript markdown tokenize node.js ios

8
推荐指数
2
解决办法
3073
查看次数

在整个x_data上还是仅在train_data上对Keras fit_to_text更好?

我有一个带有文本列的数据框。我将它们分成x_trainx_test

我的问题是,最好Tokenizer.fit_on_text()在整个x数据集上使用Keras的功能x_train

像这样:

tokenizer = Tokenizer()
tokenizer.fit_on_texts(x_data)
Run Code Online (Sandbox Code Playgroud)

要么

tokenizer.fit_on_texts(x_train)        # <- fixed typo
tokenizer.texts_to_sequences(x_train)
Run Code Online (Sandbox Code Playgroud)

有关系吗?我也必须x_test稍后再进行标记化,所以我可以只使用相同的标记化器吗?

python tokenize keras

8
推荐指数
1
解决办法
936
查看次数

从nltk word_tokenize获取原始文本的索引

我正在使用nltk.word_tokenize对文本进行标记,我还希望将原始原始文本中的索引转换为每个标记的第一个字符,即

import nltk
x = 'hello world'
tokens = nltk.word_tokenize(x)
>>> ['hello', 'world']
Run Code Online (Sandbox Code Playgroud)

我怎样才能得到[0, 7]与令牌的原始索引相对应的数组?

python text tokenize nltk

7
推荐指数
2
解决办法
3797
查看次数