.NET正则表达式使用高级技巧之替换类

2009年5月14日星期四

.NET正则表达式使用高级技巧之替换类

因为.net的基本正则语法和Perl5基本相同,所以基本语法你可以去下载一下M$的JS帮助文档,上面有详细的说明\d表示什么,{,5}表示什么,\[表示什么,这里我只想提醒大家一点,为了避免和反向引用相冲突,在你用\nn表示八进制的ASCII码时,请在\后加0,就是说,\40在表示ASCII码时,请这样写\040。

替换

Regex类有一个静态的Replace方法,其实例也有一个Replace方法,这个方法很强大,因为它可以传入一个delegate,这样,你可以自定义每次捕获匹配时,如何处理捕获的内容。

publicstaticvoidMain()
{
strings=11235;
s=Regex.Replace(s,@\d+,newMatchEvaluator(CorrectString),RegexOptions.Compiled|RegexOptions.IgnoreCase);
Console.WriteLine(s);
Console.ReadLine();
}
privatestaticstringCorrectString(Matchmatch)
{
stringmatchValue=match.Value;
if(matchValue.Length==1)
matchValue=0+matchValue;
returnmatchValue;
}


以上这段代码说明了如果使用delegateMatchEvaluator来处理正则的Match结果,该代码返回01120305。Replace方法除了使用delegate来处理捕获的Match,还可以用字符串来替换Match的结果,而用字符串来替换Match结果除了把Match结果静态的替换成一个固定的文本外,还可以使用以下语法来更方便的实现你需要的功能:

$number把匹配的第number组替换成替换表达式,还有这句话怎么写也表达不清楚意思,还是来个例子吧:

publicstaticvoidMain()
{
strings=11235;
s=Regex.Replace(s,@(\d+)(?#这个是注释),0$1,RegexOptions.Compiled|RegexOptions.IgnoreCase);
Console.WriteLine(s);
Console.ReadLine();
}

这段代码返回的是010120305

就是说,对组一的每个匹配结果都用0$1这个表达式来替换,0$1中$1由组1匹配的结果代入${name}把匹配的组名为name的组替换成表达式,

上例的Regexexpression改成@(?name\d+)(?#这个是注释)后面的替换式改为0${name}结果是一样的$$做$的转义符,如上例表达式改成@(?name\d+)(?#这个是注释)和$$${name},则结果为$1$12$3$5$替换整个匹配$`替换匹配前的字符$'替换匹配后的字符$+替换最后匹配的组$_替换整个字符串
后面的选项,大家自己写个例子体味一下。

*注,上例中的(?#这个是注释)说明了正则的内联注释语法为(?#)

表达项选项

正则表达式选项RegexOptions有如下一下选项,详细说明请参考联机帮助

RegexOptions枚举值内联标志简单说明ExplicitCapturen只有定义了命名或编号的组才捕获IgnoreCasei不区分大小写IgnorePatternWhitespacex消除模式中的非转义空白并启用由#标记的注释。MultiLinem多行模式,其原理是修改了^和$的含义SingleLines单行模式,和MultiLine相对应
这里我提到内联标志,是因为相对于用RegexOptions在newRegex时定义Regex表达式的全局选项来说,内联标志可以更小粒度(以组为单位)的定义匹配选项,从而更方便表达我们的思想

0 评论:

发表评论