読者です 読者をやめる 読者になる 読者になる

楽天tech2010

勉強 技術

遅ればせながら楽天techに言った時のまとめ。
iPadの充電を忘れていて、、、全セッションをiPadでメモするのは厳しそうだったのでメモが取れた分だけ。他は、手書きなんで気が向けば、転載していきたいと思います。

HTML5とその先にあるWeb of data 慶応大学 W3C 深見さん、楽天技術研究所 西岡さん

  • HTML5は何所に向かってるのか?
    • HTML = ハイパーリンク付きの文章ファイル
    • それだけだけど、それによって面白いことがある。
    • ウェブサイトを作る材料
    • ↑ここまでは20世紀の話
    • ↓これからの話
    • HTMLはブラウザを介して見るものであったが、現在はブラウザでできることが増え、ブラウザがアプリケーションの動作環境となっている。
    • この変化に標準仕様も追随しなければならない。
  • HTML5の重要変更点
    • Specs to be an application platforms ・・・こっちが注目されがち
    • Data description specs for web of data ・・・今日はこっち!!!
    • HTML は Human Readable。
  • Semantic web ってどうなった?
    • Semantic と Semanticsの違い。前者は形容詞。後者は名詞。HTML5にはsemanticsで使えるタグが増えた。
    • オントロジ ontology (=Heavy Weight Semantic Web)は閉じた世界では有効だが、オープンなウェブではあまり機能してこなかった。
    • しかし、意味情報を持つデータは既にwebで利用されている。(ex.RSS,exif)
    • これらはLight weightなsemantic webだから成功している。
    • 論文の共有が最初の目的
    • 今も検索したり、mixiとかのSNSで友達情報を見たり  ⇒ Web = データベース と言える!!
  • Linked data
    • 関連する情報が自動的に抽出できるデータベース = web
    • DBpedia(wikipediaから構造化されたデータをRDFとして保持し、すんごい複雑なqueryでも答えが出せる)、BBCの辞書
  • 楽天での取り組み
    • Outside Rakutenは以下の2つ
    • web APIの公開
    • Data release for academia(研究目的に限って楽天に蓄積されたデータを提供している)
    • Open innovation が狙い
    • Inside Rakuten
    • RDF store
    • LOD(DBpediaと楽天の商品を結びつけるみたいな)
    • Solr + RDF のhybrid
  • 楽天以外の国内での取り組み
  • Webの進化は自律、分散、協調、そして generating data
  • 公開するのは簡単ではないが、使う環境は整っている。始めてみよう!!

感想:他では中々聞けない技術の話な気がするので、行って良かったです!HTML5のアプリケーションAPIの話は分かりやすく注目度も高いですが、逆に一般的にはいまいち理解してもらえず注目度が低い「data description specs for web of data」 というHTML5の特徴にこそ、次のwebのブレークポイントとなる可能性が秘められているような気がした。ただ、時間が足りずに駆け足での説明 + 自分の知識不足で、全てを理解できたかというと、、、 英語版iphoneアプリ(のepub in iPad)で途中で挫折したoreillyのsemantic webの日本語版買おうかな。。 RDF⇔webの変換がよく分かっていない。

クラウドの経済学 日経コンピュータ 中田さん

  • 最近のニュースを見てみる
  • クラウドコンピュータ??
    • 複数台のコンピュータ(or データセンタ丸ごと)が一つのコンピュータのように動作すること
    • クラウドコンピューティングとはクラウドコンピュータを使うことに過ぎない
    • クラウドコンピュータを作るのは超大変。
    • でかい処理を分散させたり、小さい処理を即時処理したり。
    • Googleはオープンな企業だといわれているが、社内で使っているプロダクトに関しては一切公開していない!!時々、論文などが出てくるだけ。
    • 人々がGoogle mapsgmailといったクラウドサービスをを使うのはクライアントソフトよりもレスポンスが良く、高機能だから!
    • Data center as a computer、Googleクラウドの核心 などにクラウドコンピュータの話は細かく書いている
  • Google規模の会社は他のサードパーティに頼ることは不可能。自分たちが一番知っている。
  • Microsoft follows google
    • 日本の1年のサーバ出荷台数と同じくらいのサーバ数のデータセンタを構築
    • これくらいの規模だとPUI(使用電力のうち冷房とかを除いて、実際にサーバを動かすのに使われている割合を表す数値。1.0に近いほど良い。)が超大事。
    • Microsoftは外気を使って冷やしたりしている。
    • ちなみにgoogleの研究というか実績によると、サーバ管理室の温度は28℃程度で問題ない。
  • データセンタには規模の経済が働く。
    • 規模がでかくなるにつれて、ネットワークコスト、ストレージコスト、、、全て割安になっていく。
    • googleでは1人の管理者が5000台のサーバを運用!!
    • 壊れても気にしない。壊れた所を交換するという作業が定期的にあるだけ。
    • Microsoftは一回データセンタを作ったら、三年間放置という話もある。
    • インフラを他人に使わせることで、さらに規模が大きくできる!!コストパフォーマンスがアップ!!
    • amazonが最初に気づいてAWSを展開。
    • amazonは本業のトラフィックよりも、貸している分のトラフィックのほうが多い。⇒負担ではなく、歓迎している!
  • これからの流れ
    • エンタープライズ(企業向けシステム)の世界にクラウドコンピュータが来る
    • Hadoopは米VISA、東京三菱UFJとかでも使われている。メインフレームよりも安いマシンを並べるほうが圧倒的に安い!!
    • Googleは既に月間946Pバイトのデータを50万台のサーバで処理している。。
    • Bigtableの次のSpannerというデータストレージを構築中
  • 世界最大の情報量=世界最大の機械学習
    • 将棋プロに勝ったプログラムは機械学習
    • 将棋の定石とかを知らなくても、機械学習させれば強い将棋ソフトが作れる。⇒機械学習を使うことで色んな分野でイノベーションを起こせる可能性!!
    • 世界最大・最強の機械学習googleはやっている!広告の世界で既にその威力を発揮した。
    • この機械学習力を武器にさらに色んな世界に飛び出そうとしているのは、上述のニュースの通り
    • プラス、安くインフラを提供して利用者を増やし、誰よりも多くのサーバを使うようになることでノウハウを独占!?
  • OSSを使ったクラウドコンピューティングで、プロダクトを公開してくれないgoogleに対抗しようという流れができている!!!

感想:インフラの提供 ⇒ 利用者増 ⇒ 規模の経済が働き、さらに安いインフラを提供できる ⇒ さらに利用者が増える、ノウハウを独占できる  という循環は単純なだけに恐ろしく強力だなと感じました。また、これだけクラウドに詳しくて、未来を想像している中田さんが、「googleから出版界に広告を取り返す方法は全く分かりません。」とおっしゃっていてのが印象的で恐ろしいものを感じました。ふと、世界史で産業革命の時にそれまでの手作り労働者が機械を壊す運動(ラッダイト運動)の話を聞いて、当時の自分はなんてかっこ悪いことをするんだと思ったことを思い出し、手作り労働者の気持ちが少し分かった気がした。。5000台のサーバを1人で管理。。

そして、googleってのは広告だけが収入源でそこがぽしゃるとおかしくなるんじゃないかと勝手に想像していたけど、機械学習を用いてどんな分野にでも乗り込む素養があるってのは、なかなか衝撃的な話だった。とはいえ、中田さんが「皆さんはエンジニアなんだから恐れなくていいんです。」と仰っていたので、enjoy & do my bestかな。