Hadoop Conference Japan 2011 Fallに行ってきた
Hadoop Conference Japan 2011 Fallに行ってきた。
リクルートのMIT作成のQAやら講演資料のサイト (現状、一部の資料がアップされているのみ。)
http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html
午前中のセッションに関しては、ITProのニュースになってたり、他のブログでも書かれていたり、技術的にはこれといった話が無かったりだったので略。
午後はずっとCommyunity Trackのセッションを聞いていたので、そのまとめ。
Elastic MapReduce: Amazon Web Serviceが提供するhadoopサービス @shot6
- アマゾンの三つのビジネス
- Eコマース
- マーケットプレイス
- AWS
- AWSは2006年から始まっている。
- 低レベルな階層のインフラから、高い階層のツールまでをレゴのように組み立てながら作っていく。
- AWSが提供するElastic map-reduce とは
- 大規模データ分析をあらゆる開発者に。
- インフラでAWSを利用することで、解析業務に集中できる。
- 高い堅牢生を誇るS3の利用。
- これまでにデータロストしたことや、アタック等でデータが流出したことはない。
- Big dataはほんとにビジネスとして成立するのか?
- 成立することが分かったらすさまじいスピードでの拡張、成立しないなら素早い撤退が必要となる。
- リアルサーバであれば、初期投資が難しいし、大きく拡張していくことも難しい。
- AWSでこの柔軟性を実現できる!!
- Elastic map-reduce 概要
- 導入事例
- Razorfish
- 広告の費用対効果が500%改善された。
- Sonet
- 一日10GBのアクセスログ解析
- 普通に構築すると初期費用だけで数千万かかりそうなところを、年間600万で運用できている。
- Razorfish
- hadoopと比較して
- クラウド上のデータの安全性?
- S3がデータをロストしたことは無い。アタック等による流出もない。
- QA
- 他のユーザのジョブにより、ネットワーク負荷があがり、自分が影響を受けることはあるのか?
- ありえるが、テナント単位での帯域の上限は決まっている。また、M1 X-Large以上のインスタンスであれば、インバウンドの回線は専有となるので、ちょっとお高いがこれを利用すれば確実。
- 他のユーザのジョブにより、ネットワーク負荷があがり、自分が影響を受けることはあるのか?
基本、他のセッションはbig dataにチャンスが眠っているというスタンスでしたが、このセッションはほんとにbig dataはビジネスにつながるのか??という問いかけがある所が新鮮でした。(だから、初期費用もかからず、すぐに撤退できるEMRを使いましょうというセールストークな面もありますが。)
最近はTech ChrunchとかでもBig dataの解析をする会社が投資を受けたとかでニュースになっていたり、何となくbig data系がバブルになっている気がしますが、Data Ware House的なものはもっと前から存在するわけで、hadoopの登場によって参入障壁が下がった分、そこで差別化を測るのがどんどん難しくなっていったり、Map-Reduceのデザパタ本では、高度な解析よりもデータ量を集めることに注力するほうが良い結果を産み出す可能性が高いと書いてあり、そうなると、今リードしている会社が有利な戦いになってしまうので、果たして今後big dataを巡る争いはどうなっていくんだろうか??と思いを馳せ巡らせたりしました。
LT
Hadoop and subsystems in livedoor @tagomoris
- livedoorのシステム概要
- 2800 server
- 3200 host
- 今は15Gbpsくらい。
- ↓が出たのが、2009/8なので、2年ちょいで3倍以上。
- hadoopの利用状況
- 10node
- 主にreportingに使っている。
- Scribeを使ってhourlyでHDFS上にload
- Scribe
- Deliver, central, backupの三要素。
- インストールが大変。
- httpdの設定には手をいれたくない。
- この辺?? http://d.hatena.ne.jp/tagomoris/20110906/1315294322
- Scribelineというツールを作った
- Scribeを使いやすく。
- http://d.hatena.ne.jp/tagomoris/20110428/1303981573
- Shibというツールも作った
- HUEの機能制限版
- これ?? http://d.hatena.ne.jp/tagomoris/20110310/1299738606
Lightweight wrapper for Hive on Amazon EMR @stanaka
- はてなでのhadoop利用
- Amazon EMRとHiveを使っている。
- 自前のクラスターを使っていたが、ジョブが溢れた。
- 生のmap-reduceを使うと、実装者が偏ってしまい、ノウハウも偏る。
- EMRの利用へ
HBaseでグラフ構造を扱う(開発中) Ameba 鈴木さん
今はMySQLを使っているが、SPOFがあったり、シャーディング管理が面倒だったりで、HBaseへの移行を実装中。
Large-scale Graph processing @doryokujin
- Map-reduce デザパタ本の五章にも載ってるよ!
- Map-reduce
- Graph構造も一緒にreduceに送る必要があるため、shuffleがえらいことになる。
- そもそも本来のgraphの仕組みとmap-reduceでは相性が悪い。
- Googleのpregelモデル
- シンプルなアルゴリズム。
- ネットワーク通信はメッセージのみ。
- Pregelにインスパイアされたプロジェクトたち
- Hama
- GoldenOrb
- Giraph
- hadoopのインフラ上で動く
- データの増大とともに計算方法の選択が求められる時代
大規模分散処理でもGraphの扱いが問題になり、最近のトレンドである所謂ソーシャルな分野でもGraph構造が取りざたされ、DB界でも@doryokujin さん主催で勉強会が開催される Graph DBが出てきて、webは元々Graphだしということで、IT業界はどこを見てもGraphに到達するんだな〜と思いました(笑)。ただ、全然キャッチアップできておらず、このLTの話もチンプンカンプンだったので、しっかりキャッチアップせねばww。
リクルート式hadoopの使い方 石川さん
- リクルート自体は部門(ゼクシィ、じゃらん、carセンサー etc..)ごとに別会社な存在だが、MITは全社横断な組織。
- 解決したかった課題。
- バッチが終わらない。。
- hadoop使いたかっただけな面もあり。
- 導入への障壁
- 現行システムに影響は与えたくない。開発工数をかけたくない。
- エコシステムを上手く活用すべし。
- エコシステムの活用
- web Hiveというツールを作成した。
- リクルートのシステム自体がSQLを駆使しており、Hiveとの親和性が高かった。
- ツール群:https://github.com/recruitcojp/
- web Hiveというツールを作成した。
- 効果
- 飲食ぐるメール
- Hot pepperのメールマガジンのおすすめ店舗。CTR、CVRが1.6倍に!
- 集計期間、配信人数ともに増やすことができた。
- 飲食ぐるメール
- Mahoutの利用
- Parallel freauent pattern mining. アソシエーション分析
- カーセンサの同時に参照されることの多い車種表示。
- Non distributed recommenders. あなたにおすすめの、、、
- 分析専門の人もいるが、簡単なマイニングはMahoutをそのまま利用している。
- Parallel freauent pattern mining. アソシエーション分析
- hadoopの構成に関して
- 現在は全部で118台。
- Azkabanという監視ツール
- USのYahooの人におすすめされて、勝手に導入したww。
- Jobフローを図で確認。
- 失敗時のメール送信、リトライなどの設定が可能。
- MapRの検証も本格的にやる予定
- スナップショット機能
- ボリューム機能を利用したアクセス管理
- リクルートのようなマルチテナントの会社には良さそう。
今回のイベントのメインスポンサーのリクルートさんの発表。前回のconferenceの発表では、まだ実用には至っていなさそうな感じ?でしたが、今回は実例がバンバン出てきて、ちょっとびっくりしました。現状、そんなにびっくりするようなサービスは無いですが、結婚やらグルメやら就職・転職やら習い事やら中古車購入やらマイホーム購入まで、人生の一大イベントからちょっとしたことまで、各サービス間で個人を結びつけられれば、データの量は半端ないと思うので、日本で一番データの掘りがいのある会社なのかもしれないな〜とセッションを聞きながら思いました。エンジニアで年収○○万の人におすすめの結婚式場とか!?
あと、Azkabanは聞いたこともなかったので、けっこう気になった。
Hadoop and Event collection Terjeさん
- Flume
- ログ転送用のミドルウェア
- Master, agent, collector が存在する。
- Decoratorを使って、実際に保存するデータのFilterなどが行える。
- plugingが使える。
- 多機能すぎて使いづらい時がある。
- セキュリティの問題。
- パッチを作っている
- QA
- なぜHBaseではなく、cassandraをチョイスしたのか?
- HBaseは初期導入コストが高い。hadoopのインフラにコストをかけられない場合は、cassandraで作ってしまうという方法もありだと思う。
- なぜHBaseではなく、cassandraをチョイスしたのか?
Flume知らない上に、英語だったので、あまり理解できず。。。
マーケティング向け大規模ログ解析事例紹介 NTT コミュニケーションズ 原さん
- Hadoopワールドで発表予定の内容
- BizストレージとBizマーケティングというクラウドサービスを展開中。
- Bizマーケティング
- アクセスログの解析
- 口コミ情報の抽出
- リッチインデクシング技術を使って口コミを解析
- NTT研究所が開発した技術
- ワード抽出、関連語抽出、ポジネガ抽出、位置情報抽出
- Map-reduceの高速化
- Map multi reduce, local reduce
- PJoin
- ともにNTT研究所が作成。
ミクシィにおけるhadoopの利用 @takahi_i
- mixiにおけるhadoopの利用
- 複数クラスタがあるが、いずれもデータノードの数は4-5程度。
- ログデータ、DBコンテンツをHDFSに投入している。
- 推薦機能
- ニュース、チェック、レビュー等に推薦機能を導入したいと思っている。
- Googleニュースのレコメンドタブ的な。(この機能はUSロケール限定)
- 類似インスタンスを集めることで実現可能。
- 文書の場合 -> 同一単語を多く含む
- ユーザの場合 -> 同一の商品を購買した、同一のニュースを参照したetc..
- 総当たりでの類似オブジェクトを検索しようとすると、オブジェクト数の二乗の計算量になり、効率が悪い。
- LSH
- 効率はいいが、精度に問題があると言われている。
- Google ニュースで導入されているらしい。
- インスタンス毎にベクトルを生成する。
- ECサイトであれば、商品IDを次元とした多次元ベクトル。
- これに関数(後述)を適用し、ユーザ毎の値を決定。
- 関数が肝となる!
- 実験
- その他、作ったツール
WEB+DB PRESSで大規模データ分析が取り上げられた時の伊藤さんの記事がかなり分かり易く、likelikeを触ったり、コードを見たりしながら、知識を膨らますことができたので、今回、一番期待していたセッションでしたが、意外にもlikelikeはほとんど進化していませんでしたww。(他のツールを作ったりされていたようです。)
map-reduceのデザパタ本もhadoopを始めた人の次の一歩的な位置づけとありましたが、統計とか機械学習とかの素人な状態な自分にとって、ベタのMap-Reduce×統計処理とかデータ抽出とかっていうのは、かなり参考になる有り難いプロジェクトなので、今後、発展していくといいな〜と思う分野でした。また、likelikeのように○○のためのプロジェクトとはっきり用途が限定されていると分かり易くて良いなと思います。
(Mahoutも出てきていますが、やはり、そもそもの知識がないとMahout使っても、、、という所があったり、色々できすぎてソースコードを元にあれこれ勉強するのには不向きだったりするのかなと思ったり。)
- 収穫物
会場で↓が先行値引き販売していて\2500円でゲット。玉川さんのLTを聞きながら、これは売れるに違いないと思い、途中離脱して買いに走りました。(LT後はやはり大行列)
おまけでビックリマンサイズの象さんのキラキラシールもGET。
Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理
- 作者: Jimmy Lin,Chris Dyer,神林飛志,野村直之,玉川竜司
- 出版社/メーカー: オライリージャパン
- 発売日: 2011/10/01
- メディア: 大型本
- 購入: 3人 クリック: 208回
- この商品を含むブログ (14件) を見る
まだ、2章までしか読んでいませんが、かなりの良書の予感。(ちなみに、@okachimachizさんのブログによると、3章が最も大事な模様。)
そして、比較的薄い本なので、気合いを入れなくても何回も読みなおす気になりそうな所も好印象です(笑)。
mixiの人やリクルートの人の発表の中でもデータの導出についての解説がありましたが、mahoutが国内でホットになっていったり、機械学習のサイトに大量にブクマがついたりと、そういう分野とhadoopとの架け橋的な存在を多くの人が求めているような気がするので、スマッシュヒットな一冊になるんじゃないかな〜と勝手に思ったりしました。