标签: tokenize

如何在C++中对字符串进行标记?

Java有一个方便的拆分方法:

String str = "The quick brown fox";
String[] results = str.split(" ");
Run Code Online (Sandbox Code Playgroud)

有没有一种简单的方法在C++中执行此操作?

c++ string split tokenize

400
推荐指数
18
解决办法
53万
查看次数

308
推荐指数
8
解决办法
42万
查看次数

如何在shell中拆分字符串并获取最后一个字段

假设我有字符串1:2:3:4:5,我想得到它的最后一个字段(5在这种情况下).我如何使用Bash做到这一点?我试过cut,但我不知道如何指定最后一个字段-f.

bash split cut tokenize

279
推荐指数
9
解决办法
36万
查看次数

Scanner vs. StringTokenizer vs. String.Split

我刚刚学习了Java的Scanner类,现在我想知道它如何与StringTokenizer和String.Split进行比较/竞争.我知道StringTokenizer和String.Split只适用于字符串,那么为什么我要将扫描器用于字符串呢?Scanner只是打算一站式购物吗?

java split tokenize java.util.scanner

152
推荐指数
5
解决办法
14万
查看次数

一行Python代码可以知道它的缩进嵌套级别吗?

从这样的事情:

print(get_indentation_level())

    print(get_indentation_level())

        print(get_indentation_level())
Run Code Online (Sandbox Code Playgroud)

我想得到这样的东西:

1
2
3
Run Code Online (Sandbox Code Playgroud)

代码可以用这种方式读取自己吗?

我想要的是更嵌套的代码嵌套部分的输出.与使代码更易于阅读的方式相同,它将使输出更易于阅读.

当然,我可以手动实现,例如.format(),但我想到的是一个自定义打印功能,print(i*' ' + string)其中i缩进级别.这将是在我的终端上进行可读输出的快速方法.

有没有更好的方法来避免辛苦的手动格式化?

python reflection metaprogramming indentation tokenize

146
推荐指数
5
解决办法
7260
查看次数

Objective-C中的NSString标记化

在Objective-C中标记/拆分NSString的最佳方法是什么?

cocoa objective-c tokenize

144
推荐指数
6
解决办法
7万
查看次数

寻找"标记器","解析器"和"词法分析器"的清晰定义以及它们如何相互关联和使用?

我正在寻找"tokenizer","parser"和"lexer"是什么以及它们如何相互关联的明确定义(例如,解析器是否使用了tokenizer,反之亦然)?我需要创建一个程序,将通过c/h源文件来提取数据声明和定义.

我一直在寻找示例,可以找到一些信息,但我真的很难掌握语法规则,解析树和抽象语法树等基础概念以及它们如何相互关联.最终这些概念需要存储在实际程序中,但1)它们看起来像什么,2)是否有共同的实现.

我一直在关注这些主题和程序,如Lex和Yacc维基百科,但从未经历过编译器类(EE专业),我发现很难完全理解正在发生的事情.

parsing tokenize lexer

134
推荐指数
3
解决办法
3万
查看次数

如何使用stringstream分隔逗号分隔的字符串

我有以下代码:

std::string str = "abc def,ghi";
std::stringstream ss(str);

string token;

while (ss >> token)
{
    printf("%s\n", token.c_str());
}
Run Code Online (Sandbox Code Playgroud)

输出是:

abc
def,ghi

因此,stringstream::>>运算符可以按空格分隔字符串,但不能用逗号分隔.反正有没有修改上面的代码,以便我可以得到以下结果?

输入:"abc,def,ghi"

输出:
abc
def
ghi

c++ stringstream tokenize

118
推荐指数
2
解决办法
21万
查看次数

如何使用NLTK tokenizer摆脱标点符号?

我刚刚开始使用NLTK,我不太明白如何从文本中获取单词列表.如果我使用nltk.word_tokenize(),我会得到一个单词和标点符号列表.我只需要单词代替.我怎样才能摆脱标点符号?也word_tokenize没有多话来:点加到硬道理.

python nlp tokenize nltk

111
推荐指数
8
解决办法
15万
查看次数

在Oracle中将字符串拆分为多行

我知道这已经在某种程度上得到了PHP和MYSQL的回答,但我想知道是否有人可以教我最简单的方法将字符串(逗号分隔)拆分为Oracle 10g(最好)和11g中的多行.

表格如下:

Name | Project | Error 
108    test      Err1, Err2, Err3
109    test2     Err1
Run Code Online (Sandbox Code Playgroud)

我想创建以下内容:

Name | Project | Error
108    Test      Err1
108    Test      Err2 
108    Test      Err3 
109    Test2     Err1
Run Code Online (Sandbox Code Playgroud)

我已经看到了一些围绕堆栈的潜在解决方案,但是它们只占了一个列(以逗号分隔的字符串).任何帮助将不胜感激.

sql string oracle plsql tokenize

98
推荐指数
6
解决办法
23万
查看次数