C++正则表达式

一、正则表达式是什么?

正则表达式描述一种字符串匹配的模式。一般使用正则表达式主要是实现以下三个需求:

  1. 检查一个字符串是否包含某种形式的子串
  2. 将匹配的子串替换
  3. 将某个字符串取出符合条件的子串

正则表达式是由普通字符(例如从a到z)以及特殊字符组成的文字模式。模式描述在搜索文本时要匹配一个或者多个字符串,正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。

1. 普通字符

普通字符包括没有显式指定为元字符的所有可打印和不可打印字符。这包括所有大写和小写字母、所有数字、所有标点符号和一些其他符号。

2. 特殊字符

特殊字符是正则表达式里有特殊含义的字符,也是正则表达式的核心匹配语法。参见下表:

特别字符 描述
& 匹配输入字符串的结尾位置。
(,) 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。
* 匹配前面的子表达式零次或多次。
+ 匹配前面的子表达式一次或多次。
. 匹配除换行符\n之外的任何单字符。
[ 标记一个中括号表达式的开始。
? 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。
\ 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。
例如,n匹配字符n。\n匹配换行符。序列\\匹配 \ 字符,而\(则匹配(字符。
^ 匹配输入字符串的开始位置,除非在方括号表达式中使用,此时它表示不接受该字符集合。
{ 标记限定符表达式的开始。
| 指明两项之间的一个选择。

3. 限定字符

限定符用来指定正则表达式的一个给定的组件必须要出现多少次才能满足匹配。见下表:

特别字符 描述
* 匹配前面的子表达式零次或多次。例如,foo* 能匹配fo以及foooo。*等价于{0,}
+ 匹配前面的子表达式一次或多次。例如,foo\+能匹配foo以及foooo,但不能匹配fo+等价于{1,}
? 匹配前面的子表达式零次或一次。例如,Your(s)? 可以匹配YourYours中的Your? 等价于{0,1}
{n} n是一个非负整数。匹配确定的n次。例如,f{2}不能匹配for中的o,但是能匹配foo中的两个o
{n,} n是一个非负整数。至少匹配n次。例如,f{2,}不能匹配for中的o,但能匹配foooooo中的所有oo{1,}等价于o+,o{0,}则等价于o*
{n,m} mn均为非负整数,其中n小于等于m。最少匹配n次且最多匹配m次。例如,o{1,3}将匹配foooooo中的前三个oo{0,1}等价于o?。注意,在逗号和两个数之间不能有空格。

有了这三张表,我们通常就能够读懂几乎所有的正则表达式了。

二、std::regex及其相关

对字符串内容进行匹配的最常见手段就是使用正则表达式。可惜在C++11之前正则表达式一直没有得到语言层面的支持,没有纳入标准库,而C++作为一门高性能语言,在后台服务的开发中,对URL资源链接进行判断时,使用正则表达式也是工业界最为成熟的普遍做法。一般的解决方案就是使用boost的正则表达式库。而C++11正式将正则表达式的的处理方法纳入标准库的行列,从语言级上提供了标准的支持,不再依赖第三方。

C++11提供的正则表达式库操作std::string对象,模式std::regex(本质是 std::basic_regex)进行初始化,通过std::regex_match进行匹配,从而产生std::smatch(本质是 std::match_results 对象)。

1. 我们通过一个简单的例子来简单介绍这个库的使用。考虑下面的正则表达式

  • [a-z]+\.txt:在这个正则表达式中,[a-z]表示匹配一个小写字母,+可以使前面的表达式匹配多次,因此[a-z]+能够匹配一个小写字母组成的字符串。在正则表达式中一个.表示匹配任意字符,而\.则表示匹配字符.,最后的txt表示严格匹配txt则三个字母。因此这个正则表达式的所要匹配的内容就是由纯小写字母组成的文本文件。
#include <iostream>
#include <string>
#include <regex>
 
int main() {
    std::string fnames[] = {"foo.txt", "bar.txt", "test", "a0.txt", "AAA.txt"};
    // 在 C++ 中 `\` 会被作为字符串内的转义符,为使 `\.` 作为正则表达式传递进去生效,需要对 `\` 进行二次转义,从而有 `\\.`
    std::regex txt_regex("[a-z]+\\.txt");
    for (const auto &fname: fnames)
        std::cout << fname << ": " << std::regex_match(fname, txt_regex) << std::endl;
}

2、

另一种常用的形式就是依次传入std::string/std::smatch/std::regex三个参数,其中std::smatch的本质其实是 std::match_results,在标准库中,std::smatch被定义为了std::match_results<std::string::const_iterator>,也就是一个子串迭代器类型的match_results。使用std::smatch可以方便的对匹配的结果进行获取,例如:

std::regex base_regex("([a-z]+)\\.txt");
std::smatch base_match;
for(const auto &fname: fnames) {
    if (std::regex_match(fname, base_match, base_regex)) {
        // sub_match 的第一个元素匹配整个字符串
        // sub_match 的第二个元素匹配了第一个括号表达式
        if (base_match.size() == 2) {
            std::string base = base_match[1].str();
            std::cout << "sub-match[0]: " << base_match[0].str() << std::endl;
            std::cout << fname << " sub-match[1]: " << base << std::endl;
        }
    }
}