2010年のログマニアックスに向けて

衣袋さんも小川さんも来年のブログの方向性に関して
記事を書かれているので、僕も。
おふたりとも海外を意識されて2010年はブログを書かれていくそうです。
一方、2009年は半年ほど続けられたログマニアックスですが、
2010年はどう考えていくのか、振り返り含めて考えています。

衣袋さんも小川さんも来年のブログの方向性に関して
記事を書かれているので、僕も。
おふたりとも海外を意識されて2010年はブログを書かれていくそうです。
一方、2009年は半年ほど続けられたログマニアックスですが、
2010年はどう考えていくのか、振り返り含めて考えています。
元OmnitureでSalesforceの Adam Grecoのブログから。
イントラネット向けの計測指標に関してまとめています。
最近、社内のウェブアプリケーションや社内ポータルへのアクセス解析の導入が進んでいます。
社内外を問わず、ユーザーに対して、
適切なサービスを提供しているか、適切に利用されているか、
が問われている印象があります。
正規表現とアクセス解析の関係を知っていますか?
正規表現では、ワイルドカードやメタ文字を使用して、フィールドの一部を検索または取得することができ、 テキスト処理の作業に使用されます。 Google Analytics のほとんどのフィルタでは、POSIX 正規表現を使用して、データの検索と検索後の処理を行っています。 たとえば、除外フィルタでは、フィルタで指定したフィールドに正規表現に一致するデータが含まれている場合、そのヒットが除外されます。
日本語が非常にわかりにくいですが、
これはGoogle Analyticsのヘルプの中で、
GAでも正規表現を使うことでフィルタリング処理ができることを指しています。
GA以外のソリューションでも、例えば、
SiteCatalystのような、JavaScriptを使ったソリューションでは、
実装・変更の際には避けては通れないテクニックです。
僕は全く得意ではないので、書く必要があっても社内のエンジニアと相談して記述しているのですが、
勉強をしておくと実装以外にもDLしたデータの分析にも使える有効なテクニックです。
ここでは日本語のものを中心に
正規表現を学ぶためのサイトを紹介します。

インターネットの中のユーザーの動きを明らかにしていくのがアクセス解析ですが、
ウェブサイトを閲覧しているのは生身の人間だけではありません。
クローラやbotと呼ばれるプログラムもサイトを訪れます。
クローラ (Crawler) とは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである。「ボット(Bot)」、「ロボット」、「スパイダー」、「ロボット」などとも呼ばれる。
主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用される。近年では電子メールアドレス収集業者などもクローラを利用して、スパムの送信効率を上げている。
一般にクローラは、既知のHTML文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベースに登録する。また、既知のファイルが存在しないことを検出した場合はデータベースから削除する。
とのことですが、主に検索エンジンが
そのインデックス作成のために大量に巡回をさせています。
検索エンジン以外に、
最近きくのが、競合分析やら、文章データ収集のためのbotです。
アクセス解析によってはこうしたクローラを含めて計測をすることができます。

同僚の小川さんのMarkezineの記事でも紹介いただきましたが、
社内でのアクセス解析の勉強会をなんどか実施しています。
毎月、3時間の講座を実施していますが、
いつもの講習が比較的ツールのメニュー解説や使い方に関するものなのに対して、
本日は数値の定義に関してを中心とした講座を実施しました。
今日の勉強会のアジェンダだけ紹介。
CDNが最近、流行っているみたいです。
簡単にいうとキャッシュのサービス。
Googleが始めたGoogle DNSの背景にあったり、
Amazonのサービスだったり、
古くはAkamaiなどもやっているけど、わりと一般化してきたみたいですね。
Wiki曰く、
コンテンツデリバリネットワーク – Wikipedia
90年代以降ネットが一般に普及するにつれ、大手サイトからのリンクやテレビといった他メディアからのリンクにより、通常想定されていない大量のユーザーがサイトへ集中し、反応が遅くなったり、まったく応答不能になること(フラッシュクラウド効果)が多くなってきた。このような現象に対処する場合、サーバを一ヶ所だけに置くのではなく、地理的・バックボーン的に分散させるのが効果的である。同一のコンテンツを多くのサーバでミラーする手段としては、単純なDNSラウンドロビンから、P2P、地理情報を加味した複雑な配信技術までさまざまなものがあり、研究、実用化がなされている。
とのことで、
高速化・負荷分散の観点で各サイトが導入しているそうです。
ただ、このCDNを利用する最にアクセス解析上、いくつかの注意点があります。
アクセス解析を切り替える、ということは
数字の定義を切り替えうことと同義になります。
実際に今取得している数字の厳密な定義はあまり知らない人が多いのですが、
いざ、ソリューションを変えてみると、
数字の差異に非常にこだわってしまうのが、よくある話です。
あるサイトの人が言っていたのですが、
エライさんは数字が上がっていれば何をいわないけど、
下がったらスゴいことになっちゃうんだよね
というのがありがちです。
特に社外アライアンスに対して、数値を共有している場合には、
担当者の利害もからみ、
数字の見せ方を考えていく必要があります。
社内で、社外向けも含めて、
ソリューションの違い・差に関してコミュニケーションをとった際の材料作りから
見せ方に関して考えてみました。
ユーザービリティを上げて、ユーザーのエリアトップに誘導したり、
SEO対策のためだったり、
各サイトでは、PC・モバイル問わず、リダイレクトの活用は進んでいるかと思います。
この時に、気をつけて欲しいのが、
広告用のコードをきちんとリダイレクト時に引き回すこと。