正規表現を実装する 第二回「任意の一文字」


第二回は任意の一文字にマッチする「.」(ドット)を実装してみたいと思います。

int MyRegex::match (const char* str,const char* regex) {
    if ( !*regex ) return 1;
    
    return this->match_main(str,regex);
}

int MyRegex::match_main(const char* str,const char* regex) {
    int flag = 0;
    
    for(int i=0;str[i];i++) {
        // 文字が一致するか、「.」だったら検索開始
        if ( str[i] == *regex || *regex == '.' ) {
            flag = 1;
            for(int j=1;regex[j];j++) {
                // 元文字列が終端まで来たか、「.」以外で文字が違っていたらマッチしない
                if ( !str[i+j] || (regex[j] != '.' && str[i+j] != regex[j]) ) {
                    flag = 0;
                    break;
                }
            }
            if ( flag ) return 1;
        }
    }
    
    return 0;
}

まず関数を分けてみました。あまり意味はないかもしれませんが、一応今後のことを考えて念のためですね。また元に戻すかもしれません。

処理としては単純です。「.」だったら文字との比較を行わずに無条件でスルーする感じです。

しかしあれですね。他のメタ文字が増えてきたら色々大変そうです・・・。

処理のまとめ方が今一うまくできないのも勉強不足というより、経験不足によるものだと思います。

なので色々何度も実装、修正しながらコツを掴んでいきたいと思います。

また、今回はテスト用のコードも書いてみました。

// -- testcode.cpp --
#include <cassert>
#include <iostream>
#include "myregex.h"

int main () {
    MyRegex reg;
    
    // リテラルの検証
    assert( reg.match("abcdef","bc"    ) == 1 );
    assert( reg.match("abcdef","bcdefg") == 0 );
    assert( reg.match("ababcd","abc"   ) == 1 );
    assert( reg.match("ababdd","abc"   ) == 0 );
    assert( reg.match("abcabd","abc"   ) == 1 );
    
    // 任意の一文字「.」の検証
    assert( reg.match("abcdef","......" ) == 1 );
    assert( reg.match("abcdef",".cdef"  ) == 1 );
    assert( reg.match("abcdef",".cdf"   ) == 0 );
    assert( reg.match("abcdef","a.cd"   ) == 1 );
    assert( reg.match("abcdef","a.cdf"  ) == 0 );
    assert( reg.match("ababdd","..c"    ) == 0 );
    assert( reg.match("abcabd","..c"    ) == 1 );
    assert( reg.match("ababdd","a.c"    ) == 0 );
    assert( reg.match("abcabd","a.c"    ) == 1 );
    
    return 0;
}

とりあえずどうやって書けばいいのかさっぱりわからなかったのでC言語にあったassert関数を使っています。

この辺のセオリー的なやり方も勉強しないとダメですね。