地域化
Boost.Regex は実行時の地域化について広範のサポートを提供する。この地域化モデルは、フロントエンドとバックエンドの2つの部分に分けられる。
フロントエンドの地域化は、エラーメッセージや正規表現構文そのものといったユーザが実際に触れるすべてのものに深く関わる。例えばフランス語のアプリケーションは [[:word:]]
を [[:mot:]]
に、\w
を \m
に変更できる。フロントエンドのロカールを変更するには、地域化済み文字列を含んだメッセージカタログを開発者が提供しなければならない。フロントエンドのロカールは LC_MESSAGES
カテゴリのみの影響を受ける。
バックエンドの地域化は、正規表現を解析した後に起こるすべてのこと、言い換えるとユーザが直接触れないすべてのものに深く関わる。大文字小文字の変換、照合、文字クラスのメンバーシップがそうである。バックエンドのロカールは開発者の介在を要求しない。ライブラリは現在のロカールについて必要なすべての情報を、オペレーティングシステムや実行時ライブラリから得る。これは例えば正規表現が C++ プログラムに組み込まれている場合など、プログラムのユーザが正規表現に直接触れない場合、ライブラリがすべてを取り計らうので明示的な地域化は不要ということを意味する。例えばコードに組み込まれた正規表現 [[:word:]]+
は常に単語全体にマッチし、プログラムが例えばギリシャ語ロカールのマシンで走っている場合は、ラテン文字ではなくギリシャ文字の単語全体にマッチする。バックエンドのロカールは LC_TYPE
および LC_COLLATE
カテゴリの影響を受ける。
個別の地域化の機構が 3 つ、Boost.Regex によりサポートされている。
Win32 地域化モデル
ライブラリを Win32 のもとでコンパイルした場合の既定で、特性クラス w32_regex_traits
によりカプセル化される。このモデルを使用する場合、basic_regex
オブジェクトは各自で LCID を保持する。既定ではこれは GetUserDefaultLCID
が返すユーザ既定の設定だが、必要な場合は basic_regex
オブジェクトの imbue
を呼び出して他の LCID を設定することも可能である。Boost.Regex が使用する設定はすべて C 実行時ライブラリ経由で直接オペレーティングシステムから得る。フロントエンドの地域化では、ユーザ定義文字列の入ったストリングテーブルを含むリソース DLL が必要である。特性クラスは関数
static std::string set_message_catalogue(const std::string& s);
をエクスポートし、あらゆる正規表現をコンパイルする前(basic_regex
インスタンスを構築する前である必要はない)にリソース DLL の名前を識別する文字列とともに呼び出す必要がある。
boost::w32_regex_traits<char>::set_message_catalogue("mydll.dll");
NT のもとではライブラリは Unicode を完全にサポートする。9x においては限定的であり、0 から 255 までの文字はサポートするが残りは「不明な」図形文字として扱う。
C 地域化モデル
C++ ロカールがあるので、C++ ロカールをサポートする非 Win32 コンパイラではこのモデルは非推奨である。このロカールは特性クラス c_regex_traits
によりカプセル化され、Win32 ユーザはプリプロセッサシンボル BOOST_REGEX_USE_C_LOCALE
を定義してこのモデルを有効化できる。このモデルが有効な場合、setlocale
で設定可能な大域ロカールが 1 つだけ存在することになる。すべての設定は実行時ライブラリから得るため、したがって Unicode サポートは実行時ライブラリの実装による。
フロントエンドの地域化はサポートしない。
setlocale
を呼び出すとコンパイル済みの正規表現がすべて無効になることに注意していただきたい。setlocale(LC_ALL, "C") を呼び出すと、このライブラリの動作は大部分の旧式の正規表現ライブラリ(本ライブラリのバージョン 1 含む)と同じになる。
C++ 地域化モデル
Windows 以外のコンパイラではこのモデルが既定である。
このモデルが有効な場合、basic_regex
の各インスタンスは自身の std::locale
を持つ。また、basic_regex
クラスは正規表現のインスタンスごとにロカールを設定するメンバ関数 imbue
を持つ。フロントエンドの地域化には POSIX メッセージカタログが必要であり、正規表現が使用するロカールの std::messages
ファセットにより読み込まれる。特性クラスは次のシンボルをエクスポートし、
static std::string set_message_catalogue(const std::string& s);
メッセージカタログの名前を識別する文字列を使って、あらゆる正規表現をコンパイルする前に呼び出す必要がある(が、basic_regex
インスタンスを構築する前である必要はない)。
boost::cpp_regex_traits<char>::set_message_catalogue("mycatalogue");
basic_regex<>::imbue
を呼び出すと、その basic_regex
インスタンスの正規表現が無効になることに注意していただきたい。
ライブラリを既定以外の地域化モデルでビルドした場合、サポートライブラリをビルドするときと、<boost/regex.hpp>
か <boost/cregex.hpp>
をインクルードするときの両方で、適切なプリプロセッサシンボル(BOOST_REGEX_USE_C_LOCALE
か BOOST_REGEX_USE_CPP_LOCALE
)を定義しなければならない。この場合は <boost/regex/user.hpp>
に #define
を追加するのが最適である。
メッセージカタログの提供
ライブラリのフロントエンドを地域化するためには、リソース DLL のストリングテーブル(Win32 モデル)か POSIX メッセージカタログ(C++ モデル)に適切なメッセージ文字列を含めたライブラリを提供する必要がある。後者の場合、カタログのメッセージセット 0 にメッセージを入れておかなければならない。メッセージとその ID は以下のとおりである。
メッセージ ID |
意味 |
既定値 |
---|---|---|
101 |
部分式の開始に使用する文字。 |
|
102 |
部分式の終了宣言に使用する文字。 |
|
103 |
行末表明の表現に使用する文字。 |
|
104 |
行頭表明の表現に使用する文字。 |
|
105 |
「あらゆる文字にマッチする正規表現」の表現に使用する文字。 |
|
106 |
0 回以上の繰り返しにマッチする演算子。 |
|
107 |
1 回以上の繰り返しにマッチする演算子。 |
|
108 |
0 回か 1 回の繰り返しにマッチする演算子。 |
|
109 |
文字集合開始文字。 |
|
110 |
文字集合終了文字。 |
|
111 |
選択演算子。 |
|
112 |
エスケープ文字。 |
|
113 |
ハッシュ文字。 |
|
114 |
範囲演算子。 |
|
115 |
繰り返し演算子開始文字。 |
|
116 |
繰り返し演算子終了文字。 |
|
117 |
数字。 |
|
118 |
エスケープ文字の直後に置いて単語境界表明を表現する文字。 |
|
119 |
エスケープ文字の直後に置いて非単語境界表明を表現する文字。 |
|
120 |
エスケープ文字の直後に置いて単語先頭表明を表現する文字。 |
|
121 |
エスケープ文字の直後に置いて単語終端表明を表現する文字。 |
|
122 |
エスケープ文字の直後に置いて単語構成文字を表現する文字。 |
|
123 |
エスケープ文字の直後に置いて非単語構成文字を表現する文字。 |
|
124 |
エスケープ文字の直後に置いてバッファ先端表明を表現する文字。 |
|
125 |
エスケープ文字の直後に置いてバッファ終端表明を表現する文字。 |
|
126 |
改行文字。 |
|
127 |
カンマ演算子。 |
|
128 |
エスケープ文字の直後に置いてベル文字を表現する文字。 |
|
129 |
エスケープ文字の直後に置いてフォームフィード文字を表現する文字。 |
|
130 |
エスケープ文字の直後に置いて改行文字を表現する文字。 |
|
131 |
エスケープ文字の直後に置いて復改文字を表現する文字。 |
|
132 |
エスケープ文字の直後に置いてタブ文字を表現する文字。 |
|
133 |
エスケープ文字の直後に置いて垂直タブ文字を表現する文字。 |
|
134 |
エスケープ文字の直後に置いて 16 進定数を表現する文字。 |
|
135 |
エスケープ文字の直後に置いて ASCII エスケープ文字の開始を表現する文字。 |
|
136 |
コロン文字。 |
|
137 |
イコール文字。 |
|
138 |
エスケープ文字の直後に置いて ASCII エスケープ文字を表現する文字。 |
|
139 |
エスケープ文字の直後に置いて小文字を表現する文字。 |
|
140 |
エスケープ文字の直後に置いて非小文字を表現する文字。 |
|
141 |
エスケープ文字の直後に置いて大文字を表現する文字。 |
|
142 |
エスケープ文字の直後に置いて非大文字を表現する文字。 |
|
143 |
エスケープ文字の直後に置いて空白類文字を表現する文字。 |
|
144 |
エスケープ文字の直後に置いて非空白類文字を表現する文字。 |
|
145 |
エスケープ文字の直後に置いて 10 進数字を表現する文字。 |
|
146 |
エスケープ文字の直後に置いて非 10 進数字を表現する文字。 |
|
147 |
エスケープ文字の直後に置いて引用終了演算子を表現する文字。 |
|
148 |
エスケープ文字の直後に置いて引用開始演算子を表現する文字。 |
|
149 |
エスケープ文字の直後に置いて Unicode 結合文字シーケンスを表現する文字。 |
|
150 |
エスケープ文字の直後に置いて単一文字を表現する文字。 |
|
151 |
エスケープ文字の直後に置いてバッファ終端演算子を表現する文字。 |
|
152 |
エスケープ文字の直後に置いて継続表明を表現する文字。 |
|
153 |
|
|
カスタムのエラーメッセージは以下のように読み込まれる。
メッセージ ID |
エラーメッセージ ID |
既定の文字列 |
---|---|---|
201 |
|
|
202 |
|
|
203 |
|
|
204 |
|
|
205 |
|
|
206 |
|
|
207 |
|
|
208 |
|
|
209 |
|
|
210 |
|
|
211 |
|
|
212 |
|
|
213 |
|
|
214 |
|
|
215 |
|
|
216 |
|
|
217 |
|
|
218 |
|
|
カスタムの文字クラス名は以下のように読み込まれる。
メッセージ ID |
説明 |
等価な既定クラス名 |
---|---|---|
300 |
アルファベット文字と数字の文字クラス名。 |
|
301 |
アルファベット文字の文字クラス名。 |
|
302 |
制御文字の文字クラス名。 |
|
303 |
10 進数字の文字クラス名。 |
|
304 |
図形文字の文字クラス名。 |
|
305 |
小文字の文字クラス名。 |
|
306 |
印字可能文字の文字クラス名。 |
|
307 |
区切り文字の文字クラス名。 |
|
308 |
空白の文字クラス名。 |
|
309 |
大文字の文字クラス名。 |
|
310 |
16 進数字の文字クラス名。 |
|
311 |
行区切り以外の空白類文字の文字クラス名。 |
|
312 |
単語構成の文字クラス名。 |
|
313 |
Unicode 文字の文字クラス名。 |
|
最後にカスタムの照合要素名はメッセージ ID 400 から読み込まれ、最初に失敗したところで終了する。各メッセージは “tagname string” のような形式で、tagname
は [[.tagname.]]
の内部で使用する名前、string
は照合要素の実際のテキストである。照合要素 [[.zero.]]
の値は文字列から数値への変換に使用され、他の値で置換するとその値が文字列解析に使われるということに注意していただきたい。例えば正規表現内でラテン数字の代わりに Unicode のアラビア-インド数字を使用するのであれば、[[.zero.]]
に Unicode 文字 0x0660 を充てればよい。
カスタム名を定義した場合でも、文字クラスおよび照合要素の POSIX 定義名は常に有効であるということに注意していただきたい。一方、カスタムのエラーメッセージとカスタムの構文メッセージは既存のものを上書きする。