2011年11月30日水曜日

読書日記「その数学が戦略を決める」

イアン・エアーズの「その数学が戦略を決める」という本を飛行機の中で一気に読んで見ました。統計解析やデータマイニングが如何にして応用されているかを述べた本です。実際の統計手法に関しては殆ど説明していないので、数学が苦手な人にでも簡単に理解できるはずです。

本書では統計や、データ分析に基づいて答えを求めることを「絶対計算」と定義しています。そして経験と直感に頼る専門家の意見よりも、「絶対計算」の方が優っているという主張をしています。専門家の意見と統計とでどちらの意見が正しかったかという例をいくつも示し、人間は感情や先入観に左右されるため、ほぼ例外なく絶対計算が勝つと述べています。

まず、過去の大量データを利用し、様々な要因がどのような結果に繋がるかを分析する「回帰分析」により、以下のような分析ができ、それらが専門家の意見に勝ったという例を挙げています。
  • ワインの値段を回帰分析で判断
  • 野球選手の価値をデータで判断
  • カジノでギャンブラーがいくら損してもリピートしてくれるか

また、大量の過去データがない場合でも、母集団から無作為にグループ分けをして、どのような違いが起こるか検査する、「無作為抽出テスト」をすることにより、以下のような判断ができると説明しています。
  • AdSenseで複数のタイトルのうち、どのタイトルのクリック率が高いかテスト
  • 金利を下げるのと、DMの広告に微笑む女の子の写真を使うのと、どちらが新規融資顧客開拓に有効か

また、この例のように、国民から無作為にサンプルを選んで、政策の有効性を検証することができるとも述べています。

  • 失業者に求職支援をするのは有効か?->求職支援をした失業者には、その出費を上回る失業手当削減と税収が得られた

さらに、著者は情報処理の発達により以下の例のように専門家の仕事が絶対計算により置き換えられ、人間の役割は絶対計算のための仮説検証の仕事が主になっていき、専門家の地位が下がっていくと考えています。そのため、当然ですが専門家達は大きな反発をしているそうです。
  • 医療データベースによる臨床医師の仕事の単純化
  • ダイレクトインストラクションによる教師の仕事のマニュアル化
  • 映画のシナリオさえニューラルネットワークによって判断されてしまう。(エパゴギクス社の例)

「絶対計算」という言葉はなんだか曖昧で好きではないのだけれども、統計やデータ処理に基づいた意思決定が専門家の直感より信頼できるという点は私も賛成です。情報処理の発達によって、今後もどんどんと今まで専門家が担っていたような領域に侵食していくようなことも容易に想像できます。

ただ、個人的には、データ分析などをするにしても、分析方法の決定(回帰分析の変数設定など)には専門家の関わる余地は大いにあると思います。ある特定分野への専門知識を持ち、基本的な統計知識をもった人が必要とされていくと考えられます。私が先行していた言語処理や、今の仕事の金融などの分野ではそれが当然のように行われているのですが、今後は政治、法律、医療など様々な分野に幅広く応用されていくのでしょう。

2011年10月10日月曜日

某CTOと面談

最近、知り合いの紹介でとあるインターネット企業のCTOと面談をさせて頂く機会を得ることが出来ました。Web上で保険などの商品を比較や購入できるようなサービスを提供している、技術部門は20人程度の中規模な会社です。会社の業務内容や環境について分かりやすく教えていただくことができ、とても有意義な面談でした。

会社の環境としては、今僕が働いている環境とは正反対のようでした。簡単に言うと自由で自分でなんでもやる。開発環境にソフトウェアをインストールするような権限すらない僕とは反対で、root権限があるのは当然でハードウェアの設置まで自分たちでしてしまったりするそうです。一週間以上前にリクエストを上げて上司の承認を得て計画通りにリリースしなければならない僕とは違い、一日に複数回リリースをしてしまうこともあるそうです。仕事内容もある程度自分の興味に応じて決められるようです。お会いした方は研修や海外展開のためにかなり頻繁に海外出張をされているようで羨ましい限りでした。

話をして一番面白いと思ったことは、ある特定のユーザー行動に関するデータが全く違うビジネスに使える可能性があるという事です。例えば、引越しをした人に光ファイバーなどのインターネットの勧誘をかけると成立する確率が高いそうです。後から考えると確かに関連がありそうに思えますが、このような仮説と検証を繰り返して、まだ他社が全く気づいていないルールを発見でれば、他社に先んじて一気に収益を上げられるような可能性もあります。ユーザのトラフィックは多いのに、その解析が十分にできていないような企業ではそのポテンシャルがとても高いだろうと思います。

余談ですが、僕の働いている投資銀行業界も他社が気づいていないようなルールや、マーケットの歪みを見つけ出して収益を上げるという歴史だったみたいですよね(って昔以下の本で読みました)。黒木亮さんの本はすべて読んでいますが、若干小難しいですが、ストーリーはエキサイティングだし、国際金融を理解するのにとても良いので興味のある方は是非読んでみてください。



ウイークポイントとしては、技術的な面を強みとはできていない点でしょうか。Webページも商品を紹介する程度に留まっていて、UIなどにもイマイチ統一感がないように感じます。SPSSなどの分析ツールを導入しようなどと試みているようですが、統計をある程度理解している人材がいないようで、まだ活用しきれていないそうです。

トップレベルのエンジニアがひしめくGoogleやMicrosoftのような大企業で末端のエンジニアとして働くのか、このような比較的小規模な会社で大きな権限をもって働くのか、どちらがやりがいのある仕事かって判断が難しいところですよね。自分以上の能力を持った人達に囲まれて仕事をしたいという気も強いし、自分で人を動かして新しいビジネスを作るような仕事がしたいとも思いますから。今の会社に入ってからは前者の立場で仕事をしていて、このままで良いのか疑問を持っているわけですが。

2011年9月21日水曜日

論理的な話し方

たまにはソフトスキルの事も考えてみる。Mailなどの文書にして要点をまとめたり、整理した情報をプレゼンテーションしたりというのは英語、日本語問わず比較的得意なのだけれども、普段口頭で論理的に物事を伝えるのが少し不得意だと感じています。なので、改善するために意識すべきポイントを本を読んだりWebページを見たりしながら考えて見ました。

改善余地が大いにあると思ったのは以下の点です。
  • 結論を先に言う
  • 具体的に話す(具体例を使う)
  • 余計な言い訳、前置きを言わない
  • 平常心
  • 間、抑揚、ペースを上手く使う
  • 積極的に相手の話を聞く

結論を先に言う
まず結論や主張を言う。次にその理由を説明する。さらに、必要であれば説得力を持たせるためにその具体例をあげる。最後にまとめのためにもう一度結論。以下のような構成が有名みたいですね。

結論 -> 理由 (-> 具体例) -> 結論
結論 -> 序論-> 本論 -> 結論

僕が苦手だなと感じているのが、「結論から述べる」ということ。説明から入ってしまうことが多いので、意識してできるだけ結論から話せるようにしたいと思います。ただ、自分でも答えが明確ではない事を質問されると、さすがに話しながら考えないと無理だと思う。その場合には結論が最後になったとしても、その結論に至るまでを分かりやすく論理的に導きだすことが大事だと思う。後は漠然としてでも良いので始めに結論とディレクションを伝えることかな。

あと、ミーティングなどで聞かれそうな質問はあらかじめ結論を考えておいたほうが良いでしょうね。そうすれば簡単に結論から入れるし。まぁ、それくらい考えておかないと相手に対して失礼だしね。

具体的に話す(具体例を使う)
数字を使う(かなりの確率、ではなく約80%など)、具体例を使うというのがポイントです。数字を使って話そうというのは日頃から心がけているのですが、できるだけ会話を単純にするために具体例などを省く事が多い傾向にあるので、必要に応じて上手く具体例を使って話に説得力を持たせたいですね。

余計な言い訳、前置きを言わない
「ちょっとこの件には詳しくないのですが」、などという言い訳を先に言ってしまう傾向にある。また、同じ質問などを聞かれた時に、「前にも言ったとはずなのだけれども」という軽い嫌味を言ってしまうことも頻繁にあります。これはどちらも相手の感情を害す事のほうが多い、意見を伝えるときには邪魔となる可能性があるものなので、気をつけようと思います。

平常心
どんな相手でも、落ち着いて冷静にはっきりと話す事ですね。まぁ、殆どの人がそうだと思いますが、苦手な相手や緊張する相手と話す時には、焦ってシドロモドロになってしまうことが多いです。で、さらに関係が悪くなり、余計緊張するようになり、という悪循環にもなりかねませんよね。僕は会社で苦手なトレーダーと話すときは常にこうなります。ただ、日頃から意識していれば、ある程度は改善できることだと思うので、今後意識していきたいと思います。リラックス、リラックス。

間、抑揚、ペースを上手く使う
淡々と話すタイプだと言われることがよくあります。友達と話すときはそうでもないと思うのですが、フォーマルな場で話すときや、細かい説明などをする時にその傾向がある気がします。大事なポイントだけは間をあけた後にはっきりゆっくり話すなどを意識するべきですね。

積極的に相手の話を聞く
相手の目を見る、相槌をうつ、相手のポイントを的確に言いなおすなどにより、もっと積極的に相手の話を引き出す聞き方ができるようになりたいですね。自分の興味のある話の場合にはある程度できていると思うのですが、そうでない場合にも上手く自分の興味のある話を引き出すなど積極的な聞き方ができるように心がけたいです。

まぁ、こんなものは一朝一夕で身につくものではないので、頑張って常日頃から意識するようにしないと。これだけのポイントを意識しながら話すなんてかなり難しいのだけれども。

2011年9月20日火曜日

読書日記「集合知プログラミング」

O'Reillyの「集合知プログラミング」という本を買ってみました。この本はWeb APIや簡単なPythonのスクリプトを使って最近流行っているデータマイニングを広く浅く紹介している本です。



本当はもう少し統計的な面から捉えた、Rなどで説明している本を読もうかとも思ったのですが、僕から失われたWebサービス対する「勘」のようなものを取り戻すきっかけにならないかと思い、実際に公開されているAPIなどを多く利用しているこの本を選びました。

今回は、協調フィルタリングとクラスタリングを説明した2章と3章だけ読んで見ました。


第二章「推薦を行う」

協調フィルタリング(Collaborative Filtering)の説明です。これはAmazonの行なっているユーザの購入履歴から商品を推薦する機能や、似たようなアイテムを推薦する機能などに応用されている技術です。基本的なコンセプトは単純で、ユークリッド距離や相関係数でユーザやアイテムの類似度を測った後に、その類似度を重みとした加重平均を行ない、その結果を推薦度とします。主に、アイテムベースとユーザベースの2種類の方法があるそうです。

アイテムベース: まず、アイテム間の類似性を測り、ユーザが評価(購入)したアイテムに対し、その類似度に応じた加重平均をして、推薦度を算出。

ユーザベース: まず、ユーザ間の類似性を測り、その類似度に応じた加重平均をして(勿論、似たユーザの重みが大きい)推薦度を算出。

一般に、アイテムベースだと、アイテム間の関係はユーザ間の関係ほど頻繁に変わらないので、バッチなどで前もってデータを用意しておくことができるため、データのメンテナンスは必要になるがパフォーマンスは良く、疎なデータセットに対しても強いそうです。一方、小規模で変更が頻繁に起こるようなデータに対してはユーザベースが強いそうです。


第三章「グループを見つけ出す」


この章では教師なし学習の一種であるクラスタリングについて説明しています。第二章で測定したようなアイテムやユーザ間の類似度(もしくは距離)を元にして、似たアイテムをクラスタとして集めていくという方法です。本書ではブログをクラスタリング対象とし、ブログ内の単語の出現頻度をベクトル(列)とすることによってブログ間の距離を表現するという例を用いています。階層型クラスタリングとK-mean法によるクラスタリング手法を説明しています。

階層型クラスタリング: 
まず個々のブログをクラスタとし、すべての個々のクラスタ間の距離を測り、一番近い2つのクラスタを結合し新たなクラスタとする、という処理を繰り返す。これにより、すべてのブログを階層的に並べることができます。すべてのクラスタ間の距離を測る必要があるため計算量が膨大(クラスタリング対象の数の二乗 x ベクトル数)になる。(学生の時に悩まされました。疎なベクトルに対して使えるトリッキーなベクトル圧縮や計算方法を利用した記憶があります。)ブログと単語の列、行を入れ替えても動作するが、行(単語)の数が多くなるため計算量が増し、列(ブログ)の数が減るため精度が下がる可能性が高い。

K-mean法:
まず、任意の数の重心ををランダムに配置し、それに近い単語群でクラスタを形成する。さらに、形成されたクラスタの重心から近い単語群で新たなクラスタを作るという処理を、クラスタ内の単語が変化しなくなるまで繰り返す。はじめに選択されてた重心に結果が左右されるが、個々の単語の距離を測る必要がないため高速に動作するという利点がある。

その他、形成されたクラスタの二次元座標へのプロットの方法なども解説してありましたが、今回は読み飛ばしました。


実際のWeb APIなどを利用しており、簡単なスクリプトの例によって説明しているためとても実用性の高い本だと思います。簡単なレコメンデーションシステムなら2章のコードをコピペしてしまうだけで作れてしまうでしょう。

今回は2章と3章を少し時間をかけて読み込みましたが、本書のイメージは掴めましたし、さすがに全部このペースで読んでレビューまでこなすのはヘビーなので、一度簡単に全体をポイントだけ理解しながら読みつつ、興味のある部分は改めて細かく見てみたいと思います。

で、僕から失われたWebサービス対する「勘」が多少なりとも戻ったかというと。「Amazonのこの部分の推薦はアイテムベースでを使っているだろう」とか、「この間話した携帯ゲーム会社の人が話していたHadoopのバッチ処理もこのアイテムベースの類似度データを作ってるんだな」、くらいのイメージは湧きます。でも何か応用できる分野が見つかるかと言われると、、、うーん、例えば広告のWebクリック率履歴を利用してユーザ毎にカスタマイズした広告を出すとか?いやー、そんなものGoogleとかで確実にもう実装されてるよな。もう少し訓練が必要ですね。

2011年9月12日月曜日

読書日記「Googleを支える技術」

ちょっと分散システムの仕組みについて復習してみたかったので、昔読んで面白かった本を引っ張り出してみました。Googleの大規模検索システムが、どのような仕組みで動いていいるのかを、検索エンジンのクローリングやインデクシングから分散システムのハード(データセンターなど)とソフト(データベースやデータ処理)、さらにおまけで開発手法まで説明した本です。Googleのオフィシャルな本ではないですが、Googleの大規模検索システムの概要をとても分かりやすく易しく説明しています。コンピュータサイエンスのバックグラウンドがあれば専門領域が違っても一日で理解できるくらいの内容です。




今回は分散処理の仕組みだけチェックしておきたかったので、3章の「分散ストレージ」と4章の「分散データ処理」の部分を中心に読みました。Googleのシステムはデータやその処理を複数のコンピューターに分散することによって高速化やデータの扱う大規模化を図っています。また、処理を分散させるためのデータのコピーや、ハードウェアが壊れた時のフェイルオーバー機能をもたせており、2章と3章ではそれら仕組みが説明されています。

3章の「分散ストレージ」ではGFS、Big TableとChunkという3つの分散ストレージを紹介し、データの分散方法や、多重化されたデータベースに対するアップデート、エラー時の対応などが説明されています。

GFS
ハードディスク上のデータの大容量化、分散化を可能にする技術です。チャンクと呼ばれる細かい単位に分けられ、マスタによって場所などが保持される。データの読み込みはマスタにデータの場所を問い合わせるのみで簡単に行うことができる。ただ、書き込み時にはロック機能がないため不整合が起こる可能性がある。その代わり、ファイル末尾にレコード追加するような機能を備えており、これだとアトミックな操作はできるが同じデータを重複して書きこむ可能性もある。読み込み、書き込みともにスケールアウトするが、書き込み時にはデータ多重化のためにチャンクのコピーを伴うため読み込みより時間がかかる。

Big Table
ある程度構造化された大規模データを扱うためのテーブル。他のテーブルとのリレーションは持たないが、フィールドにはどんなデータでも格納できるというデータ構造。行キーのカラムキーとタイムスタンプの3つによってデータを特定することができる。ロックは行単位でのみ可能。データはタブレットと呼ばれる単位で分散して格納され、マスタによって管理される。タブレットへの書き込み操作はmemorableというログにジャーナルされ、それがある程度のサイズになったところで新しいタブレットが作られて、タブレットの分割や結合が起こる。

Chunk
ロックとイベント通知の機能を備えた小規模データ向けのストレージ。GSFやBig Tableなどの外部リソースのロック制御や、DNSとして使われている。レプリカと呼ばれるマシンで5重に多重化されており、その一つがマスタとして働く。

4章の「分散データ処理」ではMapReduceによる分散処理の仕組みの説明や、Sanzallという簡単にMapReduceの仕組みを使うためのスクリプト言語について説明しています。ほぼマシン台数に応じて比例してスケールするというかなり優秀な結果がでているそうです(サーバを50台から600台に増やしても1.3倍程度しかトランザクションが増加しないらしい)。

MapReduce
言わずと知れた分散データ処理技術です。データはKeyとValueのセットで扱われ、Map、シャッフル、Reduceという3つのステップにより行われます。Mapが個々のデータに対して分散して処理を行い、シャッフルが処理を終えたデータからKeyに応じてデータの並び替えを行い、ReduceがKeyごとにデータを集約し書きだすという仕組みのようです。

Sanzall
MapReduceの仕組みを使うためのとても簡単なスクリプト言語です。Map処理をスクリプト内に書き、Reduce処理はアグリゲータと呼ばれるパラメータ(Sum, Maxなど)を指定すると自動的に行われるようです。インプットとアウトプットのレコードを実行時に引数で指定すると自動的にGFS(BIG Table)からデータを読み込み、指定したMapReduceの処理を分散して行い、GFSへ結果を書き込みます。本書にいくつかプログラムの例があるのですが、使い方はとても簡単で、分散処理どころかプログラミングの経験すらない人でも簡単にデータ処理ができてしまうと思います。

MapReduceの分散処理のアイデア自体はとても単純なものだけれども、しっかりスケールアウトさせるためにどうデータやトランザクションを効率的に分散させるかであったり、エラー時や機器の故障時にも処理をとめることなくファイルオーバーさせる技術は、(本書ではコンセプトしか説明していませんが)とても複雑であることがよく分かります。その複雑な部分を隠蔽して、単純なスクリプトで扱えるようにしてしまう点には感心しますね。

本書はGoogleを支えているシステムの基本的な技術を知るにはとても良い本だと思います。完全に読み物的な本で、著者もGoogleのシステムに触れるわけではなく、コードの例が豊富にはなかったのでコードレベルでのイメージがしにくかったのがちょっと残念ですが、その辺りはHadoopをちょっと勉強してカバーしたほうがいいかもしれないですね。少なくともGFSやMapReduceに対応する仕組みがどのようなもので、どうやって使うかくらいは簡単に把握しておこうかな。

2011年8月28日日曜日

読書日記「はじめの一歩を踏み出そう―成功する人たちの起業術(マイケル・E. ガーバー)」

起業の勉強をすべく、本を呼んでみました。読んだ本はマイケル・E. ガーバーの「はじめの一歩を踏み出そう―成功する人たちの起業術」です。スモールビジネスの経営コンサルタントの方が書いた本で、売上は100万部を超えてアメリカでは起業家のバイブル的な本になってる(と帯に書いてある)そうです。「職人系」の起業家が「起業家」としての視点を持つことの重要さと、自分が現場にいなくても収益が上がる事業モデルの作り方を三部構成で説明しています。

Part1では失敗例を元に起業に対してあるべき姿勢や、美化された起業家像に乗せられて無計画に事業を始めると痛い目をみるよ、という事を説明しています。起業には「起業家」と「管理者」と「職人」がバランスよく協力し合うことが必要であると述べています。そして、僕のような職人タイプが専門知識があるだけで事業経営ができると勘違いして、従業員を雇い出した頃に経営的な視点や従業員のマネジメントを疎かにしたがために(例えば嫌いな経理を従業員任せにしてほったらかし)崩壊するパターンが多いと指摘しています。自分の創造力に任せて自由にプログラミングができるから起業するぞ、なんてだけ考えていると大ゴケする可能性大かもしれないですね。

Part2では事業モデルの重要性について述べています。起業とは、職人としての自分自身に依存することではなく収益を上げる事業モデルを確立することです。個々の専門家の能力に依存するのではなく、普通の専門家が最大限の結果を出せるようにシステム化された事業モデルを作ることができれば、その事業モデル自体が価値を持つことになります。組織の役割とその運営をマニュアル化し収益をあげられる事業モデルができあがれば、それにより自分の役割も他の従業員で交換可能になり、事業モデル自体が価値を持つので売却も可能になります。

Part3ではその事業モデルをどう作り上げるかを、「事業発展プログラム」として説明しています。

まず、事業モデルはイノベーション -> 数値化 -> マニュアル化というサイクルで作られます。例えば、紺色のスーツの営業員が茶色のスーツより売上が高いことを発見したので(イノベーション)、何パーセント高いのかを図り(数値化)、紺色のスーツ着用を従業員に義務付ける(マニュアル化)といった具合です。

著者の「事業発展プログラム」は以下の7ステップから構成されます。

  1. 事業の究極の目標 - 自分の人生で何を成し遂げたいのか
  2. 戦略的目標 - 収益目標や会社の規模、スケジュールなど
  3. 組織戦略 - 組織図を作り役割を明確にする。それにより、従業員が増えた場合にも責任が明確になる。
  4. マネジメント戦略 - 業務マニュアルなど、従業員に如何に働いてもらうかなどの管理システム
  5. 人材戦略 - 従業員を動機づけ、思い通りに働いてもらうためのルール
  6. マーケティング戦略 - 顧客がなにを求めているか、顧客にどう印象づけるかなど
  7. システム戦略 - 上記の戦略のシステム的な統合

この数時間で読み終わってしまう本を読んだだけで起業の仕方が理解できてしまうわけはないです。ただ、起業とは「職人」としての自分の能力に依存せずに収益が上がる事業モデル(システム)を作るとこだというコンセプトと、そのモデルを作るための大まかなステップはよく理解できました。

自分が職人として会社で働く立場から、起業家として自分でその仕組を作る立場になりたいかと言われると、うーん、まだ具体的なイメージがないのでなんとも言えないですね。業務モデルを試行錯誤しながら作り上げていくプロセスはすごく面白そう。そのプロセスが身近に感じられ、自分もそれに貢献できるような小規模な起業で働くのも向いているのかもしれませんね。