相关疑难解决方法(0)

C++使用正则表达式对字符串进行标记

我正试图从头开始学习一些C++.
我精通python,perl,javascript,但在过去的课堂环境中只是简单地遇到过C++.请原谅我的问题的天真.

我想使用正则表达式拆分一个字符串,但是没有太多运气找到一个清晰,明确,有效和完整的如何在C++中执行此操作的示例.

在perl中,这是行动是常见的,因此可以以微不足道的方式完成,

/home/me$ cat test.txt
this is  aXstringYwith, some problems
and anotherXY line with   similar issues

/home/me$ cat test.txt | perl -e'
> while(<>){
>   my @toks = split(/[\sXY,]+/);
>   print join(" ",@toks)."\n";
> }'
this is a string with some problems
and another line with similar issues
Run Code Online (Sandbox Code Playgroud)

我想知道如何最好地完成C++中的等价物.

编辑:
我想我在boost库中找到了我想要的东西,如下所述.

boost regex-token-iterator(为什么不强调工作?)

我想我不知道该搜索什么.


#include <iostream>
#include <boost/regex.hpp>

using namespace std;

int main(int argc)
{
  string s;
  do{
    if(argc == 1)
      {
        cout << "Enter text to …
Run Code Online (Sandbox Code Playgroud)

c++ regex split tokenize

12
推荐指数
1
解决办法
2万
查看次数

真正定义英文单词?

什么是英语单词的最佳定义?

英语单词的其他案例不仅仅是\w+什么?有些可能包括\w+-\w+\w+'\w+; 有些人可能会排除像\b[0-9]+\b.但我没有看到对这些案件达成任何普遍共识.我们有这样的正式定义吗?你们任何人都可以澄清吗?

(编辑:扩大问题,使其不依赖于正则表达式.)

regex nlp

4
推荐指数
1
解决办法
592
查看次数

标签 统计

regex ×2

c++ ×1

nlp ×1

split ×1

tokenize ×1