アクセス解析担当者も学んでおきたい正規表現
正規表現とアクセス解析の関係を知っていますか?
正規表現では、ワイルドカードやメタ文字を使用して、フィールドの一部を検索または取得することができ、 テキスト処理の作業に使用されます。 Google Analytics のほとんどのフィルタでは、POSIX 正規表現を使用して、データの検索と検索後の処理を行っています。 たとえば、除外フィルタでは、フィルタで指定したフィールドに正規表現に一致するデータが含まれている場合、そのヒットが除外されます。
日本語が非常にわかりにくいですが、
これはGoogle Analyticsのヘルプの中で、
GAでも正規表現を使うことでフィルタリング処理ができることを指しています。
GA以外のソリューションでも、例えば、
SiteCatalystのような、JavaScriptを使ったソリューションでは、
実装・変更の際には避けては通れないテクニックです。
僕は全く得意ではないので、書く必要があっても社内のエンジニアと相談して記述しているのですが、
勉強をしておくと実装以外にもDLしたデータの分析にも使える有効なテクニックです。
ここでは日本語のものを中心に
正規表現を学ぶためのサイトを紹介します。
正規表現一般の解説
【正規表現01】日付の表現 – 名もないテクノ手
これは非常によい解説。勉強させていただきました。
その場で動作させて確認する正規表現入門ツール「HiFi RegExp Tool」:phpspot開発日誌
遊びながら学ぶのに有効なツールの紹介。
Regular Expressions Cheat Sheet (V2) – Added Bytes
チートシートも手元にあるとよいですね。
正規表現の利用事例
知っとくべき8つの正規表現+2 – E-riverstyle Vanguard | CSSやXHTML,Javascriptやweb製作に関する事を紹介
Web全般で使える表現。そのままアクセス解析でも活用出来そう
【ハウツー】ゼロからはじめる正規表現 秀丸編 – 秀丸で文字列の末尾を制御する (1) 全角スペースの除去 | パソコン | マイコミジャーナル
僕は秀丸で試してから実際のアクセス解析で試したりしています。
この連載は普通に仕事に役立つ良い事例が多いです。
Google Analyticsでの正規表現
Urchin 6 Software Tools » Regular Expression Filter Test Tool
上記で紹介されたツールと同様だけど、
Urchinのテストツールなので、GAにそのまま使えそう。
Analytics 日本版 公式ブログ: 目標到達プロセスと正規表現
小杉さんが実際にGAでの利用法を解説しています。
Testing Google Analytics Regular Expressions In Real Time
こちらは英文ですが、
^/orderthankyou\.asp.*
と指定することで、サンキューページのみを対象として抽出しています。
Useful regular expressions in Google Analytics | grits
こちらも英文ですが具体的な例が上がってます。
- ブロードバンドからのアクセスユーザーはどれぐらいか
- スクリーンサイズ一定以上のユーザーはどれぐらいか
などです。
正規表現は方言も多くて、
英語圏も含め、アクセス解析で使いこなせている例はまだ少ないようですが、
セグメント分けに是非活用してみてください
