正規表現のまとめ[＋セキュリティ対策]

開発現場では主に妥当性チェックで使用される正規表現ですが、ほとんどのケースでクラスや関数化されていて正規表現のパターンを学ぶ機会は少ないと思います。と言うことで正規表現の基本的な使い方をまとめてみました。

また、正規表現の「セキュリティ対策」についても解説したいと思います。

正規表現の関数

PHPの代表的な正規表現の関数は次の3つとなります。

関数	用途
preg_match	正規表現によるマッチングを行う ※マッチング = 対象文字列がパターンに一致するかどうか
preg_replace	正規表現検索および置換を行う
preg_match_all	繰り返し正規表現検索を行う

その他の正規表現(PCRE)の関数一覧 (PHP公式)

※PCRE(Perl Compatible Regular Expressions)は日本語にすると「Perl互換正規表現」です。C言語で実装したライブラリでLinux、ApacheやPHPなどで使用されています。

preg_match()の使い方

[構文]

int preg_match ( string $pattern , string $subject [, array &$matches [, int $flags = 0 [, int $offset = 0 ]]] )

[引数]

引数	意味
$pattern	パターン
$subject	対象文字列
&$matches	[省略可能]検索結果が配列で代入される
$flags	[省略可能]フラグの設定(初期値0)
$offset	[省略可能]検索開始位置の指定(初期値0)

[戻り値]

戻り値	意味
1	一致(マッチ)した場合
0	一致(マッチ)しない場合
FALSE	エラーが発生

使用例1 - 妥当性チェック

ソースをコピー

// 数字チェック
function isNumeric($str){
   if (preg_match("/\A[0-9]+\z/",$str)) {
       return TRUE;
   } else {
       return FALSE;
   }
} 
  
// 英数字チェック
function isAlphabetNumeric($str){
   if (preg_match("/\A[a-zA-Z0-9]+\z/",$str)) {
       return TRUE;
    } else {
       return FALSE;
    }
}   

if (isNumeric(123)) 
  echo "一致しました。<br />";  
else     
  echo "一致しません。<br />";        

if (isAlphabetNumeric("abc123ABC")) 
  echo "一致しました。<br />";  
else     
  echo "一致しません。<br />";    
  
if (isAlphabetNumeric("あいうえお")) 
  echo "一致しました。<br />";  
else     
  echo "一致しません。<br />";

[結果]

ソースをコピー

一致しました。
一致しました。
一致しません。

※パターンに「^」「$」でなく、「\A」「\z」を使用しているのはセキュリティ上の対策です。詳細は後述します。

使用例2 - 検索結果を取得

ソースをコピー

preg_match("/[a-zA-Z]+/","あいうFishえお",$matches);

echo "<pre>";
var_dump($matches);  
echo "</pre>"

[結果]

ソースをコピー

array(1) {
  [0]=>
  string(4) "Fish"
}

パターンの構文

まずはサンプルの「パターン」を見てください。

次のパターンは対象文字列が「あいうえお」のいずれかの文字にマッチするかどうかです。わかりやすいように正規表現のデリミタや文字クラス、メタ文字などの用語を図解で表示しています。

デリミタ

パターンはデリミタで囲む必要があります。デリミタには英数字、バックスラッシュ、空白文字以外の任意の文字を使用します。一般的に使用されるのは「/」(スラッシュ)です。その他には「#」(ハッシュ記号)、「~」(チルダ)、「%」(パーセント)なども使用可能です。

[例]
/[0-9]+/
#[0-9]+#
%[0-9]+%

※特殊な場合を除きデリミタには「/」を使用するのが望ましいです。

修飾子

修飾子はデリミタの後ろに指定します。必ずしも記述する必要はありません。

修飾子	意味
i	大文字と小文字を区別しない
u	パターンと対象文字列をUTF8として扱う

[例]
// 大文字小文字を区別しない英字
/[a-z]+/i

// あ～おのUTF8のひらがな
/[あ-お]+/u

※日本語(UTF8)の文字列が含まれる場合は必ず「u」を記述します。

メタ文字

メタ文字は角カッコ[ ]の外で使用できるものと角カッコ内で使用できる2種類あります。次のメタ文字は角カッコの外で使用できるものです。

メタ文字	意味
^	行頭
$	行末(改行含む)
.	改行を除く全ての文字
[]	文字クラス
\|	OR (論理和)
()	サブパターン
{}	量指定子(最長一致)
{}?	量指定子(最短一致)
\	エスケープ文字

文字クラス

文字クラスはパターンに記述する角カッコ[ ]の事です。

例	意味
[abc]	abcのいずれかにマッチ
[^abc]	abc以外にマッチ
[0123456789]	0から9のいずれかにマッチ
[0-9]	0から9のいずれかにマッチ
[^0-9]	0から9以外にマッチ
[a-zA-Z]	英字のいずれかにマッチ
[a-zA-Z0-9]	英数字のいずれかにマッチ
/[あ-お]/u	あ～おのいずれかにマッチ

※「^」「-」「\」は角カッコ内で使用できるメタ文字となります。

サブパターン

サブパターンは丸カッコで括ります。論理和の「|」と一緒に使用されます。

パターン

/猫は(魚|ねずみ)が好きです。/u

[対象文字列1]

猫は魚が好きです。

[結果]

ソースをコピー

結果：一致します。
$matches[0] = 猫は魚が好きです。
$matches[1] = 魚

[対象文字列2]

猫はねずみが好きです。

[結果]

ソースをコピー

結果：一致します。
$matches[0] = 猫はねずみが好きです。
$matches[1] = ねずみ

[対象文字列3]

猫は水が好きです。

[結果]

ソースをコピー

結果：一致しません。

量指定子

量指定子は「繰り返し」を記述します。

量指定子	意味	補足
*	0回以上の繰り返し	{0,}の省略形
+	1回以上の繰り返し	{1,}の省略形
?	0または1回の出現	{0,1}の省略形
{n}	n回の繰り返し
{n,}	n回以上の繰り返し
{n,m}	n回以上、m回以下の繰り返し

※量指定子の「n」「m」には回数を意味する数字を設定します。

最長一致と最短一致

最長一致は正規表現のデフォルトの仕様です。複数の検索結果の中で最も長い文字を返します。最短一致は量指定子の「?」を記述する事により最も短い文字を返します。

[対象文字列]

petitmonte

[最長一致のパターン]

/.+t/

[結果]

ソースをコピー

結果：$matches[0] = petitmont

「/.+t/」のパターンの意味は「改行を除く全ての文字」が「1回以上の繰り返し」で最後の文字が「t」です。ですので「petitmonte」が一致します。

[最短一致のパターン]

/.+?t/

[結果]

ソースをコピー

結果：$matches[0] = pet

「/.+?t/」のパターンの意味は「改行を除く全ての文字」が「1回以上の繰り返し」で最後の文字が「t」です。条件としては「?」が含まれていますので最短一致となります。ですので「petitmonte」が一致します。

エスケープシーケンス

エスケープシーケンスは基本的にエスケープしたい文字の前に「\」(バックスラッシュ)を記述してエスケープ文字として使用します。それ以外の用途としては「制御コード」や「文字型」「言明(げんめい)」となります。

エスケープ文字

エスケープ文字	意味
\*	*
\+	+
\?	?
\/	/
\^	^
\$	$
\\	\

制御コード

制御コード	意味
\n	改行(16進 0A)
\r	キャリッジリターン (16進 0D)
\t	タブ(16進 09)

文字型

文字型	意味	補足
\d	数字	[0-9]と同じ
\D	数字以外	[^0-9]と同じ
\w	英数字アンダーバーの単語	[_a-zA-Z0-9]と同じ
\W	英数字アンダーバーの単語以外	[^_a-zA-Z0-9]と同じ

言明

言明	意味
\A	行頭
\z	行末(改行含まず)

※エスケープシーケンスは基本的に文字クラス内外で使用可能ですが「言明」については文字クラス内では使用できません。また、エスケープシーケンスは大文字小文字によって意味が異なりますので注意して下さい。

正規表現のセキュリティ(脆弱性対策)

Rubyで正規表現のパターンの行頭に「^」行末に「$」を使用すると「SQLインジェクション」などの致命的な脆弱性となります。

※詳細は徳丸浩の日記(外部サイト)をご覧ください。

PHPやPerlの場合は数値や文字列に「改行コード」が含まれてしまう脆弱性となります。(比較的安全ですが対応するべきだと思います。)

PHPやPerl、Rubyなどの言語でこの脆弱性を対策するには

パターンの行頭には「\A」、行末には「\z」を記述します。

[検証コード]

ソースをコピー

$str = "123" . "\n";

// メタ文字による行頭行末の記述  
if (preg_match("/^[0-9]+$/",$str)) 
    echo "[メタ文字]一致しました。<br />";  
else     
    echo "[メタ文字]一致しません。<br />";  
    
// 言明による行頭行末の記述  
if (preg_match("/\A[0-9]+\z/",$str)) 
    echo "[言明]一致しました。<br />";  
else     
    echo "[言明]一致しません。<br />";

[結果]

ソースをコピー

[メタ文字]一致しました。
[言明]一致しません。

PHPなどの書籍やインターネット上にあるサンプルには正規表現のパターンに「^」「$」を使用しているものが非常に多いです。正規表現のセキュリティホールの情報が広がると良いですね。

※この対策は一行テキスト用です。textareaタグなどの複数行で改行が必要なテキストには向いていませんのでご注意ください。

参考サイト

パターン構文 (PHP公式)
正規表現(PCRE)の関数 (PHP公式)
正規表現チェッカー ver3.0

Pocket
LINE

前の記事：	PDOの使い方とまとめ[データベース操作]
次の記事：	BOT対策でGoogle reCAPTCHA認証を利用する [PHP]

公開日：2015年09月26日

記事NO：01389

プチモンテ ※この記事を書いた人


	💻 ITスキル・経験サーバー構築からWebアプリケーション開発。IoTをはじめとする電子工作、ロボット、人工知能やスマホ/OSアプリまで分野問わず経験。画像処理/音声処理/アニメーション、3Dゲーム、会計ソフト、PDF作成/編集、逆アセンブラ、EXE/DLLファイルの書き換えなどのアプリを公開。詳しくは自己紹介へ
🎵 音楽制作 BGMは楽器(音源)さえあれば、何でも制作可能。歌モノは主にロック、バラード、ポップスを制作。歌詞は抒情詩、抒情的な楽曲が多い。楽曲制作は🔰2023年12月中旬～

オリジナル曲を始めました✨

背徳の遊牧民 feat. オペラさん (2025/9/1 新曲)

Webアプリ

このブログのマスターが作成した無料ツールです。

Free 疾風 - ときかぜ - (オープンソース)
ブラウザで写真などの画像を編集する

Free PDFデザイナー (オープンソース)
ブラウザでPDFファイルを編集(結合、分割、抽出、回転、しおり等)する

Free 複数画像のPDF変換
ブラウザで複数の画像を1つのPDFファイルにまとめる

Free PDFのテキスト変換
ブラウザでPDFファイルをテキストに変換する

Free PDFの画像変換
ブラウザでPDFファイルを画像に変換する

Free Exifの確認と削除 (オープンソース)
カメラで撮影した画像ファイル(JPEG)に潜むGPSなどのExif情報を確認、削除する (ブラウザ/スマホ対応)

Free エクセルのCSV変換
ブラウザでエクセルをCSVに変換する(一括変換も可能)

Free GIFアニメの作成 (オープンソース)
ブラウザで画像からGIFアニメを作成する

Free 動画のGIFアニメ変換
ブラウザで動画ファイルをGIFアニメへ変換する

Free アイコンエディタ
ブラウザでアイコンを作成、読み込み、編集する

Free 複数画像のAVI変換 (オープンソース)
ブラウザで画像/音声を動画ファイル(AVI)に変換する

Free Webカメラ動画変換
ブラウザで映像/音声を動画ファイル(AVI)に変換する

Free 音声形式の変換 (オープンソース)
ブラウザでMP3/OGG/AAC/FLAC/WAVなどの音声ファイルをWaveファイルに変換する

Free Waveファイルで効果音作成 ♪
ブラウザでWaveファイルの効果音を作成する

Free Waveフォーマット変換 (オープンソース)
ブラウザで8/16/24/32bitの相互変換。サンプリング周波数、チャンネルを変更する

Free 音声の結合 / 抽出 / 削除 (オープンソース)
ブラウザでWaveファイルを結合、抽出、削除する

Free Waveファイルの解析 (オープンソース)
ブラウザで全体の波形、再生時間、ビットレート、WaveFomat構造体を解析して表示する

Free 波形データと周波数スペクトル
ブラウザでマイクやパソコン内で流れている音声、MP3/OGG/WAVなどのファイルの周波数を解析する

Free 双2次フィルタ(BiquadFilter)
ブラウザで音声の特定周波数をカット/増幅/減衰する

Free 絶対音感
ブラウザでマイクやパソコン内で流れている音声のドレミなどの音階をリアルタイムに表示する (スマホ対応)

Free 音声録音くん
ブラウザでマイクやパソコン内で流れている音声をMP3/WAVE形式で保存する

Free iResEditor (オープンソース)
ブラウザでEXE/DLLファイルのリソースを編集する

Free Webの逆アセンブラ
ブラウザでEXE/DLLファイルを逆アセンブルする

※その他にも「プチラボ」でアプリを多数公開しています。

3Dゲーム

このブログのマスターが作成した無料ゲームです。

短時間で遊べるファンタジーのオンラインRPG風

ほのぼの癒し系のスマホアプリ

パズルゲーム

ナンプレのドン！

スマートフォン

このブログのマスターが作成したアプリです。

お主の画像減色
カメラの写真や画像ファイルを「高品質に減色」する

お主は誰だ。
AI(人工知能)が「あなたの顔はどんな芸能人、有名人に似てるか」を判定する顔診断アプリ (女性向け)

AI(人工知能)

おもちゃのAI研究室
イラストの自動着色などのAIアプリの研究室(学習用)

めえめえ(自動作曲システム)
ブラウザで歌詞を入力するだけで自動作曲する(簡易版)
※オリジナルの作詞・作曲はYouTubeで公開中

ロボット

このブログのマスターが作成したロボットです。(試作機)

ロボットアーム

二足歩行ロボット

四足歩行ロボット

1位	CakePHP 3.9.xから4.3.xへアップグレード [エラー解決/移行ガイド]
2位	BootstrapのPaginationをレスポンシブに対応する [Laravel]
3位	オリジナルのログイン機能をつくる [Laravel]
4位	ページバーコントロールの生成(Pagination/ページング機能)
5位	CakePHPをサブディレクトリで本稼働させる [Nginx/Apache]
6位	Vuexの使い方 [Laravel]
7位	Audioタグでシーク(再生位置を調整)が機能しない[Audio seeking not working]
8位	秒から時間単位(?日?時間?分?秒)に変換する [PHP]
9位	LaravelでINNER JOIN / LEFT JOIN [クエリビルダ/Eloquent]
10位	Laravelをバージョンアップする
11位	BOT対策でGoogle reCAPTCHA認証を利用する [PHP]
12位	Twitterの連携アプリを作成する(他人のアカウントでつぶやく)
13位	ファイルをアップロードする(複数ファイル＋ドラッグ＆ドロップ対応版)
14位	MD5の安全性を少しだけ高めるソルト(SALT)
15位	重複しないランダムの値を取得する

正規表現のまとめ[＋セキュリティ対策]

正規表現の関数

preg_match()の使い方

使用例1 - 妥当性チェック

使用例2 - 検索結果を取得

パターンの構文

デリミタ

修飾子

メタ文字

文字クラス

サブパターン

量指定子

最長一致と最短一致

エスケープシーケンス

正規表現のセキュリティ(脆弱性対策)

参考サイト

関連記事

プチモンテ ※この記事を書いた人

オリジナル曲を始めました✨

最新の記事

人気の記事 (毎週月曜日～)

Webアプリ

3Dゲーム

パズルゲーム

スマートフォン

AI(人工知能)

ロボット