高级正则表达式专题

因第一次投稿，如有错误，请多多包涵。
说起正则表达式，可以一直上溯至对人类神经系统如何工作的早期研究。WarrenMcCulloch和WalterPitts这两位神经生理学家研究出一种数学方式来描述这些神经网络。
1956年，一位叫StephenKleene的美国数学家在McCulloch和Pitts早期工作的基础上，发表了一篇标题为“神经网事件的表示法”的论文，引入了正则表达式的概念。正则表达式就是用来描述他称为“正则集的代数”的表达式，因此采用“正则表达式”这个术语。
随后，发现可以将这一工作应用于使用KenThompson的计算搜索算法的一些早期研究，KenThompson是Unix的主要发明人。正则表达式的第一个实用应用程序就是Unix中的qed编辑器。
这个专题主要是为了提高大家对正则表达式的认识和高级的使用。
1使用正则表达式来检测HTML是否关闭
functioncheck_html($html){
preg_match_all(/([a-zA-Z0-9]+)\\s*[^\\/]*/,$html,$start_tags);
preg_match_all(/\\/([a-zA-Z0-9]+)/,$html,$end_tags);
if(count($start_tags[1])!=count($end_tags[1]))returnfalse;
for($i=0;$icount($start_tags[1]);$i++){
if(!in_array($start_tags[1][$i],$end_tags[1]))returnfalse;
}
returntrue;
}
解释：
/([a-zA-Z0-9]+)\\s*[^\\/]*/这个模式是用来匹配HTML的标记（如：head、div、divid=main等等，但是除了br/这种）的，并且在$start_tags保持着标签的名字（如：head、div等）。而/\\/([a-zA-Z0-9]+)/这个模式是用来匹配闭合的HTML标记(如：/head,/div等)的。并且在$end_tags中保持这闭合的标签名。然后我们用count($start_tags[1])!=count($end_tags[1])这个条件语句来判断开始的标记跟闭合的标记是否相等，不相等就说明没闭合。最后用in_array($start_tags[1][$i],$end_tags[1])来判断开始标跟闭合的标记是否相等。至此，我们就完成了HTML的匹配了！
2匹配E-mail格式
functioncheck_email($email){
if(preg_match(/^[\w\d!#$%'*+-\/=?^`{|}~]+(\.[\w\d!#$%'*+-\/=?^`{|}~]+)*@([a-z\d][-a-z\d]*[a-z\d]\.)+[a-z][-a-z\d]*[a-z]$/,$eamil))returntrue;
returnfalse;
}
解释：
不要被/^[\w\d!#$%'*+-\/=?^`{|}~]+(\.[\w\d!#$%'*+-\/=?^`{|}~]+)*@([a-z\d][-a-z\d]*[a-z\d]\.)+[a-z][-a-z\d]*[a-z]$/这条模式给吓跑了，其实也很简单的。前部分[\w\d!#$%'*+-\/=?^`{|}~]+(\.[\w\d!#$%'*+-\/=?^`{|}~]+)*只是匹配符合RFC-2882标准的E-mail地址允许出现的字符，就是英文字母,数字跟一些符号，有兴趣可以查询RFC-2882手册，而([a-z\d][-a-z\d]*[a-z\d]\.)+就是匹配HOST的。最后[a-z][-a-z\d]*[a-z]就是匹配顶级域名的（如：.com、.org）。
3非贪心模式
有时候使用正则表达式的时候，你会发现有以下的问题：
preg_match('/.*/','Tonysay:hello,Jacksay:Hi',$matches);
print_r($matches);
很惊奇的你会发现匹配的是这样的内容hello,Jacksay:Hi，而不是hello和Hi。这就是贪心匹配引起的。在贪心匹配中，正则表达式会尽可能的匹配最多的字符，所以出现了第一种情况，但是我们想要的是第二种情况，那我们要怎么做呢？
我们可以使用非贪心匹配，将刚才的模式改为/.*?/这样就可以看见我们想要的结果了。*?这个就是非贪心匹配模式。还有另外一种就是+?。
*?：前面的字符可以出现任意多次，但是遇到*?后的一个字符即停止匹配。
+?：前面的字符可以出现一次或者多次，但是遇到+?后的一个字符即停止匹配。
4检测一个用户密码是否安全
functionis_good_pw($pw){
if(preg_match('/(?=.*[0-9])(?=.*[a-z])(?=.*[A-Z]).{8,16}/',$pw)){
returntrue;
}
returnfalse;
}
解释：
在本例中，我们使用了/(?=.*[0-9])(?=.*[a-z])(?=.*[A-Z]).{8,16}/模式来匹配我们的密码。在这个模式中，我们使用了正则表达式中的前瞻模式(?=)。(?=.*[0-9])这个是匹配密码中有数字，而(?=.*[a-z])是匹配密码中有小写字母，最后(?=.*[A-Z])就是匹配密码中有大写字母。而.{8,16}这个就是匹配密码是由8至16个字符组成的。那么我们的密码就需要有数字，大写字母和小写字母组成的就属于安全的密码了～
5匹配一个网站中的所有链接
functionget_links($link){
$html=file_get_contents($link);
$html=str_replace(\n,,$html);
$html=preg_replace('/a/i',\na,$html);
$html=preg_replace('/\/a/',/a\n,$html);
preg_match_all('/a\s*.*.*?\/a/',$html,$matches);
return($matches);
}
在这个例子中，我们想用file_get_contents来取得一个网页的内容。然后用str_replace(\n,,$html)把所有的换行去掉。再用preg_replace('/a/i',\na,$html)和preg_replace('/\/a/',/a\n,$html)来把所有的ahref=........../a模式另起一行。最后就用preg_match_all('/a\s*.*.*?\/a/',$html,$matches)匹配链接模式。/a\s*.*.*?\/a/就是匹配ahref=........../a这种模式的正则表达式。那我们为什么要把ahref=........../a链接另起一行呢？？因为在/a\s*.*.*?\/a/模式中，.*是不能匹配换行的，所以就如a和/a不在同一行就不能匹配了！！所以我们要这样做！

文博客-9牛1毛

标签

博客归档

BlogUpp!

关注者

2009年4月28日星期二

高级正则表达式专题

0 评论:

发表评论