Mic*_*adu 5 c++ regex unicode pcre visual-c++
我正在使用VisualStudio2010通过PCRE进行一些正则表达式匹配。假设我有这样的模式和主题std::wstring:
std::wstring subject = L"??????";
std::wstring pattern = L"??";
Run Code Online (Sandbox Code Playgroud)
正如你所看到的,我试图找到日本的字符串,因此我需要PCRE的Unicode变量,例如pcre16或pcre32与功能pcre16_exec或pcre32_exec等。
不幸的是,它不起作用。我的问题似乎是从wstring到unsigned short或unsigned int 的转换(取决于pcre16或pcre32)。我尝试了很多功能(wcstombs_s,使用QString进行字符串转换等),但没有成功。exec函数的结果永远不会保存我期望的正确值。我不太确定出了什么问题-使用简单的pcre函数与ansi字符串进行模式匹配可以正常工作。这是一个片段:
pcre16 *re;
const char *error;
int erroffset;
int ovector[30]; //The reult of the matching
int subject_length;
int rc;
std::wstring subjectstr = L"??????";
std::wstring patternstr = L"??";
subject_length = 6;
const unsigned short pattern = ....// string conversion from patternstr
const insigned short subject = ....// string conversion from subjectstr
re = pcre16_compile(&pattern, PCRE_UTF16, &error, &erroffset, NULL);
rc = pcre16_exec(re, NULL, &subject, subject_length, 0, 0, ovector, 30);
Run Code Online (Sandbox Code Playgroud)
有人可以给我一个有效的示例,说明如何使用PCRE检测unicode模式或解释出了什么问题吗?我对自己的生活感到愤怒。
尝试std::wstrings使用以下方法将字符串转换为 C 字符串c_str:
const unsigned short *pattern = subjectstr.c_str();
const unsigned short *subject = patternstr.c_str();
Run Code Online (Sandbox Code Playgroud)
另请注意,对于 UTF-8、UTF-16 和 UTF-32,PCRE 库有单独的版本。该PCRE_UTF16标志仅适用于 16 位版本,反之亦然。