我有一个下面格式的字符串.(我添加了标记以使新线正确显示)
-- START BELOW THIS LINE --
2013-08-28 00:00:00 - Tom Smith (Work notes)
Blah blah
b;lah blah
2013-08-27 00:00:00 - Tom Smith (Work notes)
ZXcZXCZXCZX
ZXcZXCZX
ZXCZXcZXc
ZXCZXC
-- END ABOVE THIS LINE --
Run Code Online (Sandbox Code Playgroud)
我试图得到一个正则表达式,允许我从字符串的两个独立部分中提取信息.
以下表达式成功匹配第一部分:
^(\\d{4}-\\d{2}-\\d{2} \\d{2}:\\d{2}:\\d{2}) - (.*) \\(Work notes\\)\n([\\w\\W]*)(?=\n\n\\d{4}-\\d{2}-\\d{2} \\d{2}:\\d{2}:\\d{2} - .* \\(Work notes\\)\n)
Run Code Online (Sandbox Code Playgroud)
我试图找出一种方法,我可以修改它以获得字符串的第二部分.我已经尝试了类似下面的内容,但它最终将匹配一直延伸到字符串的末尾.这就像它优先考虑OR之后的表达式.
^(\\d{4}-\\d{2}-\\d{2} \\d{2}:\\d{2}:\\d{2}) - (.*) \\(Work notes\\)\n([\\w\\W]*)(?:(?=\n\n\\d{4}-\\d{2}-\\d{2} \\d{2}:\\d{2}:\\d{2} - .* \\(Work notes\\)\n)|\n\\Z)
Run Code Online (Sandbox Code Playgroud)
任何帮助,将不胜感激
- 编辑 -
这是我创建的测试程序的副本,试图使其正确.在这种情况下,我还添加了第3条消息,上面的RegEx中断了.
using System;
using System.Text.RegularExpressions;
namespace RegExTest
{
class MainClass
{
public static void Main (string[] args)
{
string str = "2013-08-28 10:50:13 - Tom Smith (Work notes)\nWhat's up? \nHow you been?\n\n2013-08-19 10:21:03 - Tom Smith (Work notes)\nWork Notes\n\n2013-08-19 10:10:48 - Tom Smith (Work notes)\nGood day\n\n";
var regex = new Regex ("^(\\d{4}-\\d{2}-\\d{2} \\d{2}:\\d{2}:\\d{2}) - (.*) \\(Work notes\\)\n([\\w\\W]*)\n\n(?=\\d{4}-\\d{2}-\\d{2} \\d{2}:\\d{2}:\\d{2} - .* \\(Work notes\\)\n)",RegexOptions.Multiline);
foreach (Match match in regex.Matches(str))
{
if (match.Success)
{
for (var i = 0; i < match.Groups.Count; i++)
{
Console.WriteLine('>'+match.Groups [i].Value);
}
}
}
Console.ReadKey();
}
}
}
Run Code Online (Sandbox Code Playgroud)
- 编辑 -
为了说清楚,我试图提取的数据是日期和时间戳(作为一个项目),名称和每个"段落"的"正文".
这是您这里的一段非常强大的正则表达式。
虽然您可以在多行上执行正则表达式,但这只会使事情变得复杂。此外,由于您有重复的模式,因此在换行符上拆分字符串,然后只匹配每一行会更干净。
最终,如果您打算从文件中提取此内容,则可以轻松匹配文件的每一行,而不是读取整个文件然后进行匹配。
这就是我要做的:
var regex = new Regex ("(\\d{4}-\\d{2}-\\d{2} \\d{2}:\\d{2}:\\d{2}) - (.*?) \\(Work notes\\)");
var lines = str.split(new char[] {'\n'});
foreach (var line in lines)
{
var match = regex.Match(line);
if (match.Success)
{
for (var i = 0; i < match.Groups.Count; i++)
{
Console.WriteLine('>' + match.Groups[i].Value);
}
// will preface the body after each header
Console.WriteLine(">");
}
else
{
Console.WriteLine(line);
}
}
Run Code Online (Sandbox Code Playgroud)
就您的正则表达式而言,我维护了您拥有的原始组,因此我们在一组中获取日期/时间戳,在另一组中获取名称。主体不会与组匹配,但构造一个作为主体的字符串是很简单的。
(\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2})匹配组1。
-匹配,但未分组。
(.*?)匹配组2。
\(Work notes\)匹配,但未分组。