hadoop conferenc 2011のLT
昨日(http://d.hatena.ne.jp/seikoudoku2000/20110222)の続きで、LT部分
Hapyrus 藤川さん
-
- Hadoop -> 最初の敷居が高い
- 仕組みの理解、map reduce実装、クラスタ運用
- Hapyrusとは?
- Hadoopアプリの実行環境のwebサービス
- アプリケーション購入や大量データ解析で課金が発生。
- 色んなアプリを組み合わせて集計を進めていくことができる。
- 三月下旬にリリース予定
- Hadoopアプリの開発者募集中
- Hadoop -> 最初の敷居が高い
pluggableなMap-Reduceを部品(アプリ?)として販売してしまうと発想は凄いな〜と思った。機械学習的な実装が提供されたら買ってしまうかもしれない。価格観が未知数なので気になります。
というか、map-reduceに限らず、例えば、tweetを収集するプログラムだとか、あるキーワードに言及されたブログを収集するプログラムだとか、すんごいいい精度の形態素解析を行うプログラムだとか、それだけではサービスにならないけど、サービスを作るにあたって色んな人が使いたくなるようなプログラムが部品として売られる時代がきたらいいなと空想した。
AWSの紹介で、インフラが電気のように手に入るようになったことで、よりサービス開発に集中できるというのがあったけど、プログラムに関してもそういう部品部分が売り買いされる時代が普通にくるのかもしれないな〜。未来を感じました。
↓ハピルスの紹介動画
Mysql に map reduce の job trackerを実装 古橋さん
-
- 単一故障点がなくなる
- 任意のmap reduceタスクを連鎖可能
- マルチユーザ対応
- Worker以外は既存のモジュールを利用
Hadoop and HBase for Ranking 蒋さん
-
- 楽天の商品は8000カテゴリある。
- それを期間や地域毎の軸で集計を行う。
- Hadoop採用前は1カテゴリ分の計算に一日以上かかった。
- 後から更新が入る場合があるので、mutableなHBaseを採用
- PureなM/Rを実装
- HBaseによるリアルタイムに近いソート
- テーブル分割がなくなるので、シンプルなシステムに
- shardingのkeyの選定が重要。データが片寄ってボトルネックが発生してしまった。
iPadアプリの楽天ランキングはけっこう愛用していますが、そのバックグランドではこういうシステムが動いていると知って、買い物をする時のワクワク感が増しそうです。
bonding とネットワークスループット 金子さん
-
- Bondingの設定を変えて、スループットを測ってみた。
- 三位
- balancer - rr. とsrc - mac
- スイッチのログを見るとログがたくさん。
- 二位
- 802.3ad. と src - mac
- でもNICを2枚使っている割にはパフォーマンスが微妙
- 一位
- 802.3.ad と src-dst-ip
- NIC一枚の時の約1.8倍なので、限界に近い性能が出せているのでは?
ネットワークのディープな知識はなく、何のことだか、さっぱり分かりませんでしたが。。
HadoopとMongoDB
集中力の限界を迎えてメモがとれてない。。3/1に参戦予定のMongo Tokyoでも発表があるそうなので、その時に。
様々な知識を得られたとともに、hadoopを使っている人間として物凄く刺激になりました。NTTデータさんや、主催者の方々、発表者の方々には感謝、感謝です。