hadoop conferenc 2011のLT

昨日(http://d.hatena.ne.jp/seikoudoku2000/20110222)の続きで、LT部分

Gfarm上でのmap reduce 筑波大学 三上さん

    • HDFSの問題点
      • POSIXに準拠していない
      • マウントが不安定
    • 他のファイルシステムの利用
    • Gfarm
      • 汎用的な分散ファイルシステム
      • 筑波大、KDDI研究所などで使われている。商用サポートをしている会社もあり
      • POSIX準拠。
      • ブロック分割しない
      • 単一ファイルへアクセスがスケールしない
      • 利用方法
      • JNIのレイヤーを挟む、マウントしてアクセス
      • HDFSと比較して書き込みパフォーマンスがよかった。
      • 読み込みは同等。
    • Gluter FS
      • 使いやすいが、少しパフォーマンス悪い。
    • Ceph
      • まだ実用には早い

Hapyrus 藤川さん

    • Hadoop -> 最初の敷居が高い
      • 仕組みの理解、map reduce実装、クラスタ運用
    • Hapyrusとは?
      • Hadoopアプリの実行環境のwebサービス
      • アプリケーション購入や大量データ解析で課金が発生。
      • 色んなアプリを組み合わせて集計を進めていくことができる。
      • 三月下旬にリリース予定
      • Hadoopアプリの開発者募集中

pluggableなMap-Reduceを部品(アプリ?)として販売してしまうと発想は凄いな〜と思った。機械学習的な実装が提供されたら買ってしまうかもしれない。価格観が未知数なので気になります。
というか、map-reduceに限らず、例えば、tweetを収集するプログラムだとか、あるキーワードに言及されたブログを収集するプログラムだとか、すんごいいい精度の形態素解析を行うプログラムだとか、それだけではサービスにならないけど、サービスを作るにあたって色んな人が使いたくなるようなプログラムが部品として売られる時代がきたらいいなと空想した。
AWSの紹介で、インフラが電気のように手に入るようになったことで、よりサービス開発に集中できるというのがあったけど、プログラムに関してもそういう部品部分が売り買いされる時代が普通にくるのかもしれないな〜。未来を感じました。
↓ハピルスの紹介動画


Mysql に map reduce の job trackerを実装 古橋さん

    • 単一故障点がなくなる
    • 任意のmap reduceタスクを連鎖可能
    • マルチユーザ対応
    • Worker以外は既存のモジュールを利用

Hadoop and HBase for Ranking 蒋さん

    • 楽天の商品は8000カテゴリある。
    • それを期間や地域毎の軸で集計を行う。
    • Hadoop採用前は1カテゴリ分の計算に一日以上かかった。
    • 後から更新が入る場合があるので、mutableなHBaseを採用
    • PureなM/Rを実装
    • HBaseによるリアルタイムに近いソート
    • テーブル分割がなくなるので、シンプルなシステムに
    • shardingのkeyの選定が重要。データが片寄ってボトルネックが発生してしまった。

iPadアプリの楽天ランキングはけっこう愛用していますが、そのバックグランドではこういうシステムが動いていると知って、買い物をする時のワクワク感が増しそうです。

bonding とネットワークスループット 金子さん

    • Bondingの設定を変えて、スループットを測ってみた。
    • 三位
      • balancer - rr. とsrc - mac
      • スイッチのログを見るとログがたくさん。
    • 二位
      • 802.3ad. と src - mac
      • でもNICを2枚使っている割にはパフォーマンスが微妙
    • 一位
      • 802.3.ad と src-dst-ip
      • NIC一枚の時の約1.8倍なので、限界に近い性能が出せているのでは?

ネットワークのディープな知識はなく、何のことだか、さっぱり分かりませんでしたが。。

HadoopとMongoDB

集中力の限界を迎えてメモがとれてない。。3/1に参戦予定のMongo Tokyoでも発表があるそうなので、その時に。


様々な知識を得られたとともに、hadoopを使っている人間として物凄く刺激になりました。NTTデータさんや、主催者の方々、発表者の方々には感謝、感謝です。