正規表現を実装する 第三回「?量化子」


第三回は、ある文字が0個か1個あればマッチする「?」を実装します。

これは割とややこしそうです。

int MyRegex::match_main(const char* str,const char* regex) {
    int flag = 0;
    
    for(int i=0;str[i];i++) {
        // 文字が一致するか、「.」か、一つ先が「?」だったら検索開始
        if ( str[i] == *regex || *regex == '.' || (regex[1] && regex[1] == '?') ) {
            int question = 0;
            if ( regex[1] && regex[1] == '?' ) {
                question = 1;
            }
            flag = 1;
            int k=0;
            for(int j=0;regex[j];j++) {
                if ( regex[j] == '?' ) {
                    if ( question ) {
                        std::cout << "? error" << std::endl;
                        exit(1);
                    }
                    else {
                        question = 1;
                        k++;
                        continue;
                    }
                }
                question = 0;
                
                // 元文字列が終端まで来たらマッチ失敗
                if ( !str[i+j-k] ) {
                    // 次の値が終端か、もしくは?以外ならマッチ失敗
                    if ( regex[j+1] && regex[j+1] == '?' ) {
                        k++;
                        break;
                    }
                    flag = 0;
                    break;
                }
                
                // 「.」だったら任意にマッチなので飛ばす
                if ( regex[j] == '.' ) {
                    continue;
                }
                
                // リテラル文字が違うか
                if ( str[i+j-k] != regex[j] ) {
                    // 次の値が終端か、もしくは?以外ならマッチ失敗
                    if ( !regex[j+1] || regex[j+1] != '?' ) {
                        flag = 0;
                        break;
                    }
                    k++;
                }
            }
            if ( flag ) return 1;
        }
    }
    
    return 0;
}

ぐっちゃぐっちゃ、です。何とか機能を満たした(これも怪しいですが)だけで所謂一つのスパゲティコードになってしまいました。

というかかなり難しいです。?の扱いが非常に難しい。

C言語ポインタ完全制覇にはポインタの演算を極力使うなと書いていましたが、正直regex変数はポインタで必要に応じてインクリメントした方がキレイに書けそうな気がします。

そうすればint kのような変数はなくなりますし・・・。

とりあえず、次回はこれをリファクタリングしたいと思います。このままでは新しい処理の追加ができそうにないのでorz

あ、一応今回もテストコード書きました。

#include <cassert>
#include <iostream>
#include "myregex.h"

int main () {
    MyRegex reg;
    
    // リテラルの検証
    assert( reg.match("abcdef","bc"    ) == 1 );
    assert( reg.match("abcdef","bcdefg") == 0 );
    assert( reg.match("ababcd","abc"   ) == 1 );
    assert( reg.match("ababdd","abc"   ) == 0 );
    assert( reg.match("abcabd","abc"   ) == 1 );
    
    // 任意の一文字「.」の検証
    assert( reg.match("abcdef","......" ) == 1 );
    assert( reg.match("abcdef",".cdef"  ) == 1 );
    assert( reg.match("abcdef",".cdf"   ) == 0 );
    assert( reg.match("abcdef","a.cd"   ) == 1 );
    assert( reg.match("abcdef","a.cdf"  ) == 0 );
    assert( reg.match("ababdd","..c"    ) == 0 );
    assert( reg.match("abcabd","..c"    ) == 1 );
    assert( reg.match("ababdd","a.c"    ) == 0 );
    assert( reg.match("abcabd","a.c"    ) == 1 );
    
    // ?量化子の検証
    assert( reg.match("abcdef","o?"    ) == 1 );
    assert( reg.match("abcdef","o?ab"  ) == 1 );
    assert( reg.match("abcdef","o?ac"  ) == 0 );
    assert( reg.match("ababcd","ab?c"  ) == 1 );
    assert( reg.match("ababdd","ab?c"  ) == 0 );
    assert( reg.match("abcabd","ab?c"  ) == 1 );
    assert( reg.match("ababdd","ab?c?" ) == 1 );
    
    // 何か色々組み合わせ検証
    assert( reg.match("ababcd","ab?c."    ) == 1 );
    assert( reg.match("ababcd","ab?c.d"   ) == 0 );
    assert( reg.match("ababcd","a?b?c."   ) == 1 );
    assert( reg.match("ababcd","a?b?c.d"  ) == 0 );
    
    return 0;
}

しかし、テストが難しいですね。どういうったテストを書けばいいのか良く分かりません。

とりあえず思いついたものを適当に書いているだけなので穴もありまくりだと思いますし・・・。色々大変ですね。