标签: tokenize

用Java解析日志文件

所有,

我有一个包含以下内容的日志文件.

Request from Centercord.
2010-12-14 12:42:13.724 [ 6796] ****************************
2010-12-14 12:42:13.724 [ 6796] 1111111111111111
2010-12-14 12:42:13.724 [ 6796]22222222222

Response from Centercord.
2010-12-14 12:42:21.802 [ 5960] 11111111111111
2010-12-14 12:42:21.802 [ 5960]  ffffffffffffffffffffffffffff
2010-12-14 12:42:21.802 [ 5960]  tttttttttttttttttttttttttttt

Request from Centercord.
2010-12-14 12:42:13.724 [ 6796] ****************************
Run Code Online (Sandbox Code Playgroud)

我需要创建两个日志文件,一个用于存储所有请求详细信息,另一个用于存储所有响应详细信息.我该如何解析这个并准备两个日志文件?

我需要以下答案.

Log 1:

Request from Centercord.
2010-12-14 12:42:13.724 [ 6796] ****************************
2010-12-14 12:42:13.724 [ 6796] 1111111111111111
2010-12-14 12:42:13.724 [ 6796]22222222222

2010-12-14 12:42:13.724 [ 6796] ****************************

Log 2:

Response from Centercord.
2010-12-14 12:42:21.802 [ 5960] …
Run Code Online (Sandbox Code Playgroud)

java logging parsing tokenize

2
推荐指数
1
解决办法
2万
查看次数

apache commons lang StrTokenizer

因为我需要空标记来读取空字符串或null,我决定使用apache commons lang StrTokenizer 但是我仍然无法获得空字符串.我知道我需要setEmptyTokenAsNull在标记之前设置方法.但是我该怎么做呢?请帮忙.

tok = new StrTokenizer(line,","); 
tok.setEmptyTokenAsNull(true);
Run Code Online (Sandbox Code Playgroud)

string tokenize apache-commons

2
推荐指数
1
解决办法
1122
查看次数

RegEx Tokenizer将文本拆分为单词,数字和标点符号

我想要做的是将文本分成他的终极元素.

例如:

from nltk.tokenize import *
txt = "A sample sentences with digits like 2.119,99 or 2,99 are awesome."
regexp_tokenize(txt, pattern='(?:(?!\d)\w)+|\S+')
['A','sample','sentences','with','digits','like','2.199,99','or','2,99','are','awesome','.']
Run Code Online (Sandbox Code Playgroud)

你可以看到它工作正常.我的问题是:如果数字位于文本的末尾会发生什么?

txt = "Today it's 07.May 2011. Or 2.999."
regexp_tokenize(txt, pattern='(?:(?!\d)\w)+|\S+') 
['Today', 'it', "'s", '07.May', '2011.', 'Or', '2.999.'] 
Run Code Online (Sandbox Code Playgroud)

结果应该是:['今天','它',''s','07.可能','2011','.','或','2.999','.']

我需要做些什么来获得上面的结果?

python regex tokenize nltk

2
推荐指数
1
解决办法
7259
查看次数

Flex默认规则

如何自定义flex的默认操作.我找到了类似<*>的东西,但是当我运行它时会说"flex scanner被卡住"?还有.规则只添加一个规则,因此它也不起作用.我想要的是

comment               "/*"[^"*/"]*"*/"

%%
{comment}             return 1;
{default}             return 0; 
<<EOF>>               return -1;
Run Code Online (Sandbox Code Playgroud)

是否可以更改匹配最长的行为以匹配第一个?如果是这样,我会做这样的事情

default               (.|\n)*
Run Code Online (Sandbox Code Playgroud)

但因为这几乎总是给出一个更长的匹配,它将隐藏评论规则.

编辑

我在手册中找到了{ - }运算符,但是这个直接来自手册的例子给了我"未记录的规则":

[AC] { - } [BZ]

c lex tokenize flex-lexer

2
推荐指数
1
解决办法
6008
查看次数

String Tokenizer,分隔符

我正在使用此代码:

StringTokenizer tokenizer=new StringTokenizer(line, "::");
Run Code Online (Sandbox Code Playgroud)

拆分以下字符串:

hi my name is visghal:: what is yor name name:: being thw simple my::: what is yor name name.
Run Code Online (Sandbox Code Playgroud)

现在我想使用::as分隔符拆分字符串.它工作正常.但它也在:::考虑中.

换句话说,我想:

hi my name is visghal
what is yor name name
being thw simple my
: what is yor name name
Run Code Online (Sandbox Code Playgroud)

相反,它给了我以下内容:

being thw simple my 
what is yor name name   
hi my name is visghal   
Run Code Online (Sandbox Code Playgroud)

它正在采取:::::相同.有没有办法避免这种情况?

java string tokenize

2
推荐指数
1
解决办法
5421
查看次数

Tsquery返回完全匹配的关键字

我有一个查询

select*from mytable where posttext @@ to_tsquery('Intelence');

我只想返回与关键字'Intelence'而不是'intel'完全匹配的结果,我该如何在postgresql中执行此操作?

谢谢.

postgresql full-text-search tokenize

2
推荐指数
1
解决办法
1745
查看次数

C令牌解析

所以我正在尝试实现一个不使用任何C库函数(如strtok()等)的令牌解析器,但是我遇到了一些访问违规的问题,并且在阅读了几个类似的问题之后仍然没有得到它下.有谁愿意提供一些指示?

int main(int argc, char* argv[])
{
    int maxTokens = 10;
    char* tokens[10];

    int i;
    for(i = 0; i < maxTokens; i++)
    {
        tokens[i] = NULL;
    }

    char* str = "This,is,a,test,string";

    int result = parseLine(str, ',', tokens, maxTokens);

    printf("%d tokens were found!", result);
    system("PAUSE");
    return 0;
}

int parseLine(char* str, char delimeter, char* tokens[], int maxTokens)
{
    char* srcStr = str;

    int strlen = 0;
    int tokenCount = 0;

    if(srcStr[strlen] != delimeter && srcStr[strlen] != '\0')
    {
        tokens[tokenCount] = (char*) …
Run Code Online (Sandbox Code Playgroud)

c parsing tokenize

2
推荐指数
1
解决办法
873
查看次数

对pl/sql中的字符串进行标记并获取唯一标记?

我要求在pl/sql中对字符串进行标记,并仅返回唯一的标记.我已经看到了将字符串标记化的示例,但没有一个会返回唯一的标记.

例如查询 -

select tokenize('hi you person person', ' ') as col1 from dual;
Run Code Online (Sandbox Code Playgroud)

应该回来 TOKEN_LIST('hi','you','person')

代替 TOKEN_LIST('hi','you','person','person')

sql oracle plsql token tokenize

2
推荐指数
1
解决办法
1万
查看次数

将分隔的字符串拆分为R数据帧中的不同列

我需要一种快速而简洁的方法将数据帧中的字符串文字拆分为一组列.假设我有这个数据框

data <- data.frame(id=c(1,2,3), tok1=c("a, b, c", "a, a, d", "b, d, e"), tok2=c("alpha|bravo", "alpha|charlie", "tango|tango|delta") )
Run Code Online (Sandbox Code Playgroud)

(请注意列之间的不同分隔符)

字符串列的数量通常是事先不知道的(尽管我可以尝试发现整个案例集,如果我没有其他选择)

我需要两个数据框,如:

tok1.occurrences:
    +----+---+---+---+---+---+
    | id | a | b | c | d | e | 
    +----+---+---+---+---+---+
    |  1 | 1 | 1 | 1 | 0 | 0 |
    |  2 | 2 | 0 | 0 | 1 | 0 |
    |  3 | 0 | 1 | 0 | 1 | 1 |
    +----+---+---+---+---+---+

tok2.occurrences:
    +----+-------+-------+---------+-------+-------+
    | id …
Run Code Online (Sandbox Code Playgroud)

substring r tokenize tm

2
推荐指数
1
解决办法
1430
查看次数

令牌生成器中的C ++错误``变量'std :: stringstream mystream'具有初始化程序但类型不完整''

我是c ++的新手,正在尝试从带有数字的文件中读取行,将行标记化为字符串数组,并将这些数组项转换为双精度数字。但是在标记化的过程中,我得到这个错误``变量'std :: stringstream mystream'具有初始化但类型不完整''。我看过其他人的建议,我想不使用boost来做,其余的代码看起来很像我的,但是由于某种原因我得到了这个错误。这是代码。

#include <stdio.h>
#include <string.h>
#include <string>
#include <vector>
#include <iostream>
#include <fstream>

using namespace std;

int main ()
{
    vector<string> tokens;
    string phrase="sdfs sdfs trt we rw";
    stringstream mystream (phrase);
    string temp;

    while(getline(mystream,temp,' ')){
        tokens.push_back(temp);
    }
}
Run Code Online (Sandbox Code Playgroud)

得到有关此问题的反馈真是太好了。提前致谢。

c++ tokenize c++11

2
推荐指数
1
解决办法
2954
查看次数