Hadoopエンタープライズソリューションセミナー

Hadoopエンタープライズソリューションセミナー＠秋葉原コンベンションホール　by NTTデータ　に行ったので、そのメモ。（一部のセッションは省略）

◎企業内データへの新しいアプローチ Cloudera CEO Mike Olson

Big Data
- Big Dataは大きな問題。
- トランザクションや売上履歴だけでなく、webなどから色んなデータが集まってくる。
- 新しい方法でデータを保存し、解析する必要がある。
- 機械学習やデータからパターンの抽出を行いたい。
- データは指数的に膨大を続けている。
- これにより、会社は新しいデータとの向き合い方を考える必要がある。
- Hadoop導入企業ではノード数が平均四倍になっている。

Hadoop
- HDFSは統合して、費用をかけずにデータを格納することができる。昔はセントラルの高級サーバにしかできなかった。
- データを格納しているサーバで解析を行えることがHadoopのいい所。
- Flexible, open, scalable
- ロックインされない、コミュニティでの開発、リッチなエコシステム(clouderaとか、NTTデータとか)
- 小売り, media, 金融など多くの業界で導入されている。
- 単純なデータフローに加えて、高度な分析にも使っている。
- Telcoではネットワークの調査に使ったり、金融界ではFraud Analysis(カードの不正利用調査と思われる)に使われたりしている。
- 金融 -> リスク分析、通信 -> リサーチ、小売 -> インサイトチーム

応用事例
- Orbits ホテル予約システムのレコメンドシステム
- リンクを記録し、その人が興味のありそうな項目を抽出する。ダイビングが好き？、スキーが好き？ etc...
- ネットワークトラフィックデータのキャプチャ分析
- VoIP のキャプチャデータを数ヶ月分蓄積し、問題が起こっている時間帯や場所を抽出し、そこから原因の特定に成功した。

Cloudera
- ClouderaはHadoopコミュニティの形成にも最も貢献している、リーダーとなっている。
- 3376個パッチ、134の組織、529人の個人
- 次の10年はデータ解析を元にした戦略面が戦場となっていくと思っているので、それを支援していく。

◎Cloudera社の日本市場への取り組み　Cloudera ジュゼッペ小林

HadoopとCostco
- Costcoに行くと、色んなものを見つけて色々と買ってしまう。
- Hadoop上に大量データがあると、色々と見つけてしまう！？

Why Cloudera??
- ノード数平均・・・自社対応の大規模 -> 1450, クラウデラ顧客の大規模 -> 1300, 自社対応の小規模 -> 93, クラウデラ顧客の小規模 -> 137
- 運用スタッフ数平均・・・自社対応の大規模 -> 55, クラウデラ顧客の大規模 -> 6, 自社対応の小規模 -> 13, クラウデラ顧客の小規模 -> 3
  - ツールが充実しているため、運用にかかるコストが劇的に低い！！

導入にあたって
- どのような結果を目的とするか？
- 目的達成のため、どの要素を最適化するか？
- ディスク
  - ヴァーチャルレイヤーは避ける。
  - RAIDは避ける。
  - リモートストレージは下げる。
  - 機能、性能よりも柔軟性
  - 容易にクラスター拡張。
  - 容易にコア、スピンドルの比率の変更が可。
  - 多くのベンダーが扱っている製品。
- ネットワーク
  - 機能、製品よりも品質。
  - 超高速でなくてもいい。
  - 最終的にどこまで拡張させられるかは最初に見積もっておかなければならない。
- ネームノード
  - 高可用性が必要
  - HAは手間がかかる
  - 手動のリカバリのほうが簡単
- バックアップ
  - ネームノードのメタデータは毎時、二日分は保有。
  - ユーザーデータには特に慎重になるべき
- ツール
  - 色んな種類のスクリプトを書いてしまい、スクリプト地獄に陥りがち
  - スクリプトいっぱい書くことは書いてる人の充実感はあるかもしれないが、何も大きく変わらない、その場しのぎの対応、運用が大変、書いている人以外にはよくわからない代物がたくさんできるだけ。。。
  - Sqoop, Flume, Oozieなどのツールを使うべき
  - スクリプトを避けるデータ取り込み、ワークフローツールの活用、トラッキング、ジョブの依存、時間・イベントからの起動
  - 一番多い間違いは、ジョブが予定内に完了することを前提とすること。祈る前にSLAでモニターすべし。
- モニタリング
  - 従来からあるツールを使う。Nagios, Hyperic , Zenoss など
  - アラート対応は慎重に
  - Hadoop用のモニタリングツールもある。
  - ジョブレベルのモニタリングでは、ジョブからの視点、リソースレベルでの視点、両方が大事。
- マルチテナント
  - 認証機能。KerberosはCDH3に採用されている
  - 権限。HDFS権限体型が主体。RDBMSのような詳細レベルの認証はまだ。
  - リソース。どのタスクがリソースを食っているのか？
  - ポリシーは無謀な行動を防ぐ。
  - 小規模の時は問題にならないが、規模が大きくなってると、ここに大きなリソースが必要となってくる。

Hadoop活用モデル
- とにかくデータを集める。
- それを色々と分析する。
- 役に立ちそうなデータを出力していく。
- アーカイブデータの存在期間延長！（従来のテープによるアーカイブなどはデータとして死んでいる。）

導入視点
- Linuxに近いものとして考える → アーキテクチャ
- DWHに近いものとして考える → データ管理運用

サポートに関して
- CDHの提供等、オープンソースへの貢献。
- 認定トレーニング、認定更新コース、認定者コミュニティ
- NTTデータが日本での受け口。必要に応じてClouderaにエスカレーションされ、米国のすご腕エンジニアが出てくる。

今日の中では一番面白い内容でした。（と同時に少し耳の痛いところもあったり。。）大体はスモールスタートで始まるので、ツールのこととかあんまり気にしないでがちゃがちゃやりがちな気がしますが、本気ででかくする気があるならスモールスタートとはいえ、こういったことを頭に入れつつ導入を進めていくことが大事なんだろうと思いました。
ソフトウェアでは、昔々によく考えずに作られたスパゲッティなレガシーコード的なものが、業務の改善を阻む要素としてよく問題に取り上げられますが、クラスタ構築がどんどんチープになっていって、皆が普通に大規模クラスタを使うようになったら、クラスタ界にもそういうのが訪れるのかな〜と。

◎金融システムにおけるhadoop活用の可能性 NTTデータ福井さん

金融情報システムの変遷
- 1950年代に初めてコンピュータが導入された。
- 1970年代以降、データの正規化的なことが行われだす。
- 1990年代以降、データの多様化。商品増、投資情報などの追加、CRMなど
- VISAがhadoopの金融機関の導入事例として有名。730億のトランザクションの処理に一ヶ月かかっていたが13分に。あとはシカゴの証券取引所とか。

導入にあたって
- HadoopはTB級の大規模データの一括処理に向いている。
- 金融界で色々と分析していった結果、リスク計算のCF（キャッシュフロー）計算に使ってみることにした。
- CF計算は一つのインプットに対してうん百の計算があり、ボトルネックとなっていた。
- 月次バッチで入力が120MB、途中で数百GBになるが、パフォーマンスが出るかは不明だった。
- それ以外の部分は従来システムをうまく使いつつ、かつ、データ転送料をいかに減らすかが課題だった。

結果
- ノード数を変えながら試してみたが、入力データが小さいためか、10台以上にノードを増やしてもあまりスケールしなかった。
- 結果のデータをOracleに取り込み直すところでえらく時間がかかり、25パーセントの縮減のみ。。
- ただし、ここのデータはほんとに戻す必要があるものではないので、そこをズバッときれれば97%の削減になるはず。
- 設計書の直しが色々と必要。
- コスト面は一定の効果あり。

今後の展開
- リテール分野。データを捨ててた。
- リスク管理分野。計算のために保持しておくデータが多種多量。
- 勘定系のバッチ処理の切り出し。ホストは聖域！？
- 他産業との連携など、新規活用。
  - 手形の割引決済から、部品などの動産を担保としたファイナンス。(実際にあるらしい)
    - 部品業者が作った部品が倉庫に格納された時点でセンシング情報が金融機関にいく。
    - 金融期間はその動産を担保に業者に融資。
    - 発注側は手形であーだこーだせずに、倉庫にある部品を買うだけ。
    - 受注側は資金の回転が速くなる。
    - （中小の企業は手形の満期まで待てないので、割り引いて決済してもらうというのが慣例だそうです。）

全然知らない分野の話でしたが、噛み砕きつつ、具体的に話してくれたので面白かったです。
Asakusaが登場したりして日本でもエンタープライズ分野での導入が盛り上がりつつあるのだと思いますが、Clouderaの顧客企業に大企業がうじゃうじゃいたのを見ると、日本にはまだまだ伸びシロがありそうで、しばらくはホットな分野になるんだろうなと思いました。
そして、６月末にあるHadoopモデリングの座談会では新幹線と九州電力の事例が聞けるということで、その一端をディープに垣間見ることができそうなので楽しみです。既に200人が定員超えしている！！
http://www.zusaar.com/event/agZ6dXNhYXJyDAsSBUV2ZW50GNc_DA

◎CDHの概要 NTTデータ下垣さん

CDHとは？なぜ使うのか？
- CDH = Cloudera distribution including apache hadoop
- 導入コストの低減
  - 簡単なインストール、起動、停止
  - 周辺プロダクトの導入の敷居を下げる。Hive, pig
  - CDH3からsqoopとHBaseがサポートされている。
- 他のdistributionからの優位性
  - Hadoop関連プロダクトのコミッタを多数抱えている。全部で30人。
  - コミュニティ色が強い。
  - 高品質なhadoopを提供。ベースラインはhadoop0.20.2

Data Ware House製品と比較した時の強み
- Hadoopでしかできない処理が存在する。クリックストリームやセンサーデータ。
- 経済的な部分でも有利。また、hadoopならスモールスタートが可能。
- DWH製品と組み合わせることを検討することも可。列志向データベース、レポーティングツールなど
- Teradata , EMCなど

ツール紹介
- Hadoop本体
  - Kerberos認証
  - 権限分離、監査ログの強化などが行われている
  - ジョブの処理性能の向上、NamenodeやJobTrackerの省メモリ化
- Hive
- pig
  - 0.8系から自作のmap reduceが組み込めるようになった。
- Sqoop
- Oozie
- Flume
- Whirr
  - クラウド上でのCDH環境サポート

NTTデータのCDHサブスクリプションサポート
- 仕様調査、パッチ、セキュリティ調査、技術問い合わせ、故障調査 etc..
- CDHをインストールしたノード数に応じた従量課金。1ノードあたり25万円、最低5ノード。

HUEのデモ