翻訳

English
Español
Français
Português do Brasil
中文版
日本語
한국어
Turkish
Greek
Magyar
Polish
Русский
Tiếng Việt
فارسی

正規表現とは

正規表現とは文中からある文字列のパターンを見つけるために使用される文字列や記号の組み合わせのことです。

正規表現とは対象の文字列に左から右にマッチするパターンのことを言います。 "Regular expression" （正規表現）という言葉は "regex" や "regexp" などと一言で言い表すことがあります。正規表現を使うことで文字列の置換・検証・抽出などを行うことが可能です。

アプリケーション中において、ユーザがユーザ名を決めるときに守るべきルールを定義したいとしましょう。ユーザ名には文字・数字・アンダースコア・ハイフンが使用可能であるとします。また、ユーザ名が単調にならないように文字数にも制約を設けるものとします。この場合、次のような正規表現でユーザ名を検証することができます。

この正規表現によって john_doe, jo-hn_doe, john12_as などは許容されることになります。一方で Jo は大文字を含む上に短すぎるため許容されません。

1. 基本的な Matcher

文中から特定の文字列を検索する時の正規表現は単なる文字の並びとして表されます。例えば the という正規表現は t という文字のあとに h が続き、さらに e が続くものだと解釈されます。

"the" => The fat cat sat on the mat.

メタ文字	説明
.	ピリオド。改行を除く任意の1文字にマッチ。
[ ]	文字集合。角括弧内の任意の文字にマッチ。
[^ ]	否定文字集合。角括弧内に含まれない任意の文字にマッチ。
*	直前の文字の 0 個以上の並びにマッチ。
+	直前の文字の 1 個以上の並びにマッチ。
?	直前の文字がオプションであるとみなす。
{n,m}	括弧でくくる。直前の文字が n 個以上 m 個以下続く場合にマッチ。
(xyz)	文字グループ。 xyz という文字列がその順に現れる場合にマッチ。
\|	選言。記号の前後の文字列どちらかにマッチ。
\	次に来る文字をエスケープする。予約語 `[ ] ( ) { } . * + ? ^ $ \ \|` にマッチ。
^	入力値の開始にマッチする。
$	入力値の終了にマッチする。

短縮表記	説明
.	改行を除く任意の文字
\w	英数字にマッチ: `[a-zA-Z0-9_]`
\W	英数字以外にマッチ: `[^\w]`
\d	数字にマッチ: `[0-9]`
\D	数字以外にマッチ: `[^\d]`
\s	スペースにマッチ: `[\t\n\f\r\p{Z}]`
\S	スペース以外にマッチ: `[^\s]`

記号	説明
?=	肯定的な先読み
?!	否定的な先読み
?<=	肯定的な後読み
?<!	否定的な後読み

フラグ	説明
i	大文字・小文字を区別しない: マッチングで大文字・小文字が区別されなくなる
g	グローバル検索: 入力文字列の全マッチ列を検索する
m	複数行: 複数行をマッチさせるためのアンカー

Files

README-ja.md

Latest commit

History

README-ja.md

File metadata and controls

翻訳

正規表現とは

目次

1. 基本的な Matcher

2. メタ文字

2.1 ピリオド

2.2 文字集合

2.2.1 否定文字集合

2.3 繰り返し

2.3.1 アスタリスク

2.3.2 プラス記号

2.3.3 疑問符

2.4 括弧

2.5 文字グループ

2.6 選言

2.7 特殊文字をエスケープする

2.8 アンカー

2.8.1 キャレット

2.8.2 ドル記号

3. 文字集合の短縮表記

4. 前後参照

4.1 肯定的な先読み

4.2 否定的な先読み

4.3 肯定的な後読み

4.4 否定的な後読み

5. フラグ

5.1 大文字・小文字を区別しない

5.2 グローバル検索

5.3 複数行

貢献する

ライセンス