- 2009-10-07 (Wed) 10:03
- Hadoop

と言う訳でHadoop World NYC, 2009の参加記を書きます。

1日目はSystem Administrator用のトレーニングコースを受け、2日目がカンファレンス本番でした。トレーニングコースはDeveloper向け(3日間)とManager向けのビジネス寄りのコースが有り、合計で100人ぐらいは参加していたと思います。カンファレンスの本番自体は400~500人の参加でした。
まずSystem Adminコースですが、大体以下のような内容でした。
- MapReduceの基本概念
- ハードウェア/ネットワーク機器の選定ポイント
- OSやJavaなど、ソフトウェアでの注意点
- Hadoop(Cloudera Distribution)のインストール方法
- パラメーター/パフォーマンスチューニング(非常に細かい)
- Rack Topologyの定義方法
- HA構成/バックアップ/リカバリー方法
- Fair Shair Schedulerの動作と使用方法
- Gangliaを使用したシステムモニタリング
- Hadoopのログファイルについて
大体6時間ぐらいのコースで、これを聞くとプロダクションレベルでHadoopクラスタを管理できるように一応なるかなという感じでした。結構細かいパラメーターの話が有ったり、個人的に気になっていたFairShair Schedulerの話が聞けたり、かなり勉強になりました。
お金を取っていたので、全部書いていいものか分からないので、内容を聞きたい方は一緒に飲みに行った時にでもこっそり聞いて下さい(?) 参加者とも少し話してみたのですが、広告配信の会社、インドのSIer、西海岸の小さいスタートアップ等、かなり色々な分野の人が集まっているという印象でした。
次はカンファレンス本番の方です。以下は現在公開されているスライドです。見つけ次第、適当に追加していきます。
- Real Time BI with Hadoop
- Prototypoing Data Intensive Apps: TrendingTopics.org
- hBase, Hadoop World NYC
- NexR Terapot: Massive Email Archiving
また参加者全員に、Hadoop: The Definitive Guideが配布されました。
セッションが途中から3パラになっていて、全部聞く事は無理なので、僕が聞いた中で気になったものだけピックアップして書いてみます。
Making Hadoop Easy on Amazon Web Services
Amazon EC2上でのElastic MapReduceの話です。Apache HiveがElastic MapReduce上でサポートされた事が発表されました。またユーザー事例としてeHarmonyという出会い系サイトでの事例が紹介されていました。アメリカでは4%ぐらいのカップルがこのサイト経由で結婚するらしいです。
またKarmasphere Studio for Haodopという、MapReduceアプリケーション開発用のIDEが公開されていました。Elastic MapReduceと連携し、IDE上からMapReduceタスクのテスト/実行/デバッグを行えるようです。

Hadoop Applications at Yahoo!
Yahooでの使用事例の話です。Yahooでは現在約25000台程度のノード上でHadoopが走っているようです。そのうちの約20%が本番用、約60%がResearch目的という事でした。

ただ、Yahoo.comのトップページに表示されているコンテンツの裏では結構使われているようで、Ad Optimization, Search Index, RSS Feeds, Machine Learned Spam Filters, Content Optimization (Personalization?)などなどに使われているようです。

またYahoo Search Assistでは3年間のログを20ステップのMapReduceで処理をすることで、検索時の関連ワード用インデックスを作成しているようです。元々はC++で書かれていて実行に26日かかっていたものが、Pythonで書けるようになった上に実行時間が20分まで縮んだようです。

Rethinking the Data Warehouse with Hadoop and Hive
Facebookでの使用事例です。FacebookではログをHadoopクラスタに取り込んで、解析が行われているようです。

またHiveという、SQLライクなクエリ言語でMapReduceジョブを走らせる仕組みを開発しており、約95%のジョブがHiveQL(QueryLanguage)経由で実行されているようです。アプリケーションとしては、日々のPVなどのReporting・Adhoc-Analysis・Machine Learningに使われているらしいです
What’s new from Cloudera
Web上からMapReduceクラスタについての様々な操作を行ったり、情報を見るためのツール、Cloudera Desktopの紹介でした。
Large Scale Transaction Analysi

VISAでの使用事例です。32ノード程度とまだ評価段階な印象を受けました。20分ぐらいVISAの話でHadoopの話が全然出てこなかったのでちょっと期待外れ…。
Cross Data Center Logs Processing
RackSpaceというホスティング会社での使用事例です。RackSpaceではカスタマーサポート用に、ユーザーが送ったEメールの状態を追跡したり、ログなどをインデックス化して検索できるようにしているらしいです。具体的にはHadoopでLuceneのインデックスを作成し、Solr経由で検索を行っているとの事でした。

Hadoop Development at Facebook: Hive and HDFS
Facebookで行われているHive, HDFSの機能改善の紹介でした。個人的にはHDFS-220のArchival機能の話などが面白かったです。

Cool Development Projects at Yahoo!: Automatic Tuning and Social Graph Analysis
Yahoo Incの方からルールベースでのHadoop Clusterの異常検知手法と、Social Graph解析の話が有りました。後半は学会みたいな乗りでした。
Practical HBase: Getting the most from your HBase install
Stumbleupon, StreamyでのhBaseの内部構成/使用事例の話が有りました。su.prというURL短縮サービスで用いられているようです。約90億エントリ/1300GBで運用されているようです。
またhBaseの最新版ではZooKeeperとのインテグレーションが行われマルチマスター構成でも動作するようになったとの事で、こちらも試してみようかと思います。そういえばHyperTableについては今回は発表は無かったですね。
Hadoop + Vertica
VerticaというColumn-Oriented DBを作っている会社が、Vertica上でのMapReduceをHadoopを使用してサポートしたという話でした。StonebrakerがFounderで有名です。
Input/Output周りをVertica用に作ったと言う話だけだったので、実際どれぐらいパフォーマンスが出てるとか、HDFSと比べてどうとかいう話が無かったので、ちょっと残念でした。
Production Deep Dive with High Availability
ContextWebという広告配信の会社での使用事例の話でした。この会社ではコンテンツマッチをHadoopで行っており、そこがビジネスの根幹であるため、高可用性が求められます。
詳しい内容は、Hadoop HA Configurationを見て頂けると分かります。18か月で約6回のフェイルオーバーが起こり、そのうち約3回は予定していたものという事でした。
とりあえずこんな所です。後半力尽きた感が有るので、夜にでもまた書き足します(^_^:
Similar Posts:
Comments:0
Trackbacks:5
- Trackback URL for this entry
- http://kzk9.net/blog/2009/10/hadoop-world-nyc-report.html/trackback
- Listed below are links to weblogs that reference
- Hadoop World NYC 参加記 from moratorium
- pingback from Hadoop World NYC 参加記 – moratorium « とっても! ちゅどん(雑記帳) 09-10-07 (Wed) 15:35
-
[...] Hadoop World NYC 参加記 – moratorium Hadoop World NYC 参加記 – moratorium [...]
- pingback from Hadoop World 2009 レポート « Agile Cat — Azure & Hadoop — Talking Book 09-10-08 (Thu) 22:32
-
[...] ・・・ というわけで、何が、というわけなのか、定かではありませんが、詳しいレポートに関しては太田一樹さんのブログをご参照ください。 [...]
- pingback from Hadoop Conference Japan 2009 が、もう満員だって! « Agile Cat — Azure & Hadoop — Talking Book 09-10-20 (Tue) 7:47
-
[...] World Report:優良企業はなぜ Hadoop に走るのか Hadoop World NYC 参加記 Hadoop World 2009 [...]
- pingback from 北京でも Hadoop World を開催 « Agile Cat — Azure & Hadoop — Talking Book 09-10-24 (Sat) 12:11
-
[...] World Report:優良企業はなぜ Hadoop に走るのか Hadoop World NYC 参加記 Hadoop World 2009 [...]
- pingback from Hadoop関連技術メモ | tonbyブログ 10-01-30 (Sat) 13:52
-
[...] Hadoop World NYC 参加記 http://kzk9.net/blog/2009/10/hadoop-world-nyc-report.html [...]

