Cloudera World Tokyo に行った #cwt2012

行ってきました。

Cloudera World Tokyo | Cloudera Japan
↑に色んな資料もあり。

全体的な感想として、
CDH4やImpalaといった最先端のhadoopの進化に興味のある人、
一方でhadoopとは/clouderaとは?みたいな所からの人と、
出て数年のプロダクトではありますが、これだけのブーム(今回は600名の参加登録!)になると、
もはや"hadoop"という言葉でまとめて何かやるっていうphaseでは無いのかな~と。

とはいえ、これだけの利用者がいるからこそ、この規模のイベントが無料で、しかも、clouderaロゴ入りカステラやNTT Dataラベルの水がいただけるわけなので、ありがたい話です!!

あと、セッションのターゲットが先端を行く人向けと、これから使いだす人向けと、どちらかに寄ってたので、
真ん中くらいのレベルの人(単純なバッチ等でhadoop自体はそこそこ使ってて、次はマイニングとか機械学習ででホゲホゲしてどんどんサービス改善につなげたいが、敷居が高くて中々手が出ない、、、みたいな。)向けにも何かあるといいのかな~と思ったりしました。
## 自分がそういうのを聞きたいだけですが。。


以下、メモとったやつと感想

ビッグデータ最新動向 cloudera ジュゼッペ小林さん

「Big Data:六つの誤解」

  • 今日の話を理解するためのclouderaの考え方の説明です
  • Big Dataではなく、Bigger Data。
    • データ自体は昔からあったが、これからどんどん大きくなっていく。
  • Dataの使い方が大事
    • 風が吹けば桶屋が儲かる
    • 今の人たちが求めているのも極論するとこれと同じではないか?データから何らかの因果関係を見つけて一儲け。
  • Dataの使用目的は何?
    • 日本の冷蔵庫
      • サイズの問題であまりたくさん入らない。毎日のように明日何が必要かを考えて、買い物をして必要なものを入れる。
    • 欧米の冷蔵庫
      • 大きいので、どかっと色々買って入れておく。その中から色んな組み合わせで何かを生み出す。
    • これまでの解析は日本の冷蔵庫で、big dataは欧米の冷蔵庫
    • コストコで今日のおかずを考えるか?売っているものを見ながら利用方法を考える。
    • 目的よりも先に一箇所に集めることが大事。
  • 解析
    • 南アフリカ vs オランダ
      • 南アフリカはダイヤ原石の採掘をしている。
      • オランダでそれを磨き加工することで、価値が何倍、何十倍になる。
    • big dataは南アフリカ。big dataのbigは大雑把の大
  • バッチ処理
    • 日本のお風呂と欧米のシャワー。手段が違うだけで目的は同じ。
    • バッチもリアルタイムも両方Big data
  • データサイエンス
    • 何でてくるか分からないアドベンチャー。
      • 勿論、アドベンチャーするための知識は必要
    • こんな面白いことを外部にはやらせたくない。 by clouderaのお客さんの言葉
    • やらせるべきではない。 by ジュゼッペさん
    • 何が出てくるか分からないデータのアドベンチャーを切り開くpassionが無いと、何も出てこないよ!

リクルート流 ビッグデータを使いこなす3つの観点 リクルート 菊地原さん

「リクルート流ビッグデータを使いこなす3つの観点」

  • リクルートのビジネスモデル
    • 顧客とサービス提供者のマッチング
    • ライフイベント と ライフスタイルのニ軸
    • 海外では例えづらい。
    • ネットモデルの売り上げが着々と伸びている。
  • 組織
    • 10月に分社した。リクルートテクノロジーズ。旧MIT
    • ビッグデータgroupがある。70人!
      • 新技術/ロジックの開拓、基盤整備、ビジネスへの導入 という3つのミッション
  • 2種類のアナリスト
    • コンサル型アナリスト
      • 昔から存在していたアナリスト。掲出メディアの最適化等。
    • エンジニア型アナリスト
      • 新技術をビジネスに持ち込む。カーセンサーの例を探してね。
      • hadoopの発展と共に現れた
    • 最初から共同はしていなかった。
      • コンサル型の人が作ったロジックをエンジニア型の人がhadoop化したり、コラボの価値があった。
      • 分社のタイミングで一緒になった。
    • データ活用 = 事業担当 + コンサル型 + エンジニア型 がベスト!
    • ビッグデータ部も全員がガリガリのアナリスト/エンジニアという訳ではない。
      • すっごく難しい所を全員がやれる必要はなくて、それをどうビジネスにつなげていくかという所に注力できることが大事。
  • システムのライフサイクル
    • 開拓
      • 色々試す
    • 実装/展開
      • 早く導入する
    • 運用
      • 安定して横展開
    • 会社単体ではトータルしてもマイナスだけど、グループの利益を最大化することがミッション!

hadoop成功の鍵となるエンジニアのスキル&開発

hadoopというプロダクトで誕生したデータマイニングのニーズやエンジニアの新しいキャリアパス自体をビジネスにしてしまうという、リクルートという会社の凄さを感じました。
そして、実は自分が転職適齢期ど真ん中なことを知るなど。


データ分析におけるhadoop活用のメリット 新日鉄重金 大坪さん

  • 新日鉄ソリューションズの取り組み
    • 意思決定支援に関する研究開発
      • 20年前から取り組んでる
      • hadoopへの調査開始は2008年から。2010年ごろから他社との連携。最近、clouderaと提携。
  • hadoopで挑戦kdd cup
    • 毎年開催されるマイニングの世界的コンテスト
      • 今年のお題は広告クリック率の予測
    • 分類とは
      • 様々なデータをもとにそのデータのカテゴリの予測をすること
      • 既知のデータでモデルの構築を行う
      • カテゴリが未知のデータに適用
      • 評価を行うためのデータがトレーニングデータ
  • random forest
    • 多数の決定木を作成
    • それぞれの決定木で判定を行い、多数決で判定
    • mahoutに実装済み
      • in memoryとpartialモード
    • in memoryと同様の条件でpartialモードを実行するとすごく遅くなる。


サンプル数をがんがん増やせることがmahoutの強みな気がするので、同一のインプット量で精度云々を測るのは何か微妙なような気がしていたら、「データ増やしてどうなったか、、、続きはFEGで(近々行われる別のイベント。ちらし置いてきた & ググっても出てこないので詳細不明ww)」とのことでした。

f:id:seikoudoku2000:20121113000749j:plain
f:id:seikoudoku2000:20121113000806j:plain
f:id:seikoudoku2000:20121113000819j:plain
f:id:seikoudoku2000:20121113000831j:plain
f:id:seikoudoku2000:20121113000839j:plain
f:id:seikoudoku2000:20121113001108j:plain
f:id:seikoudoku2000:20121113001126j:plain
f:id:seikoudoku2000:20121113001142j:plain


hadoopのシステム設計、運用のベストプラクティス cloudera 嶋内さん

すごく具体的で有益な情報が多かった。ただ、結構ペース速かったのでメモは諦め、聞くことに集中。
「Hadoopのシステム設計・運用のポイント」

  • 象本読むべし。
  • hadoop operationsもいいよ。

Hadoop Operations

Hadoop Operations



その他の見つけたエントリー:
Impala Q&A - still deeper
Cloudera World Tokyoにいってきた - tagomorisのメモ置き場
Cloudera World Tokyo 2012 #cwt2012 でとったメモを公開しよう - garage-kidz tweetz

おまけ:
ニュース - 「Hadoopは低遅延に向かう」、米クラウデラのアワダラーCTO:ITpro