Home > Archives > 2009-10
2009-10
Hadoop World NYC 参加記
- 2009-10-07 (Wed)
- Hadoop

と言う訳でHadoop World NYC, 2009の参加記を書きます。

1日目はSystem Administrator用のトレーニングコースを受け、2日目がカンファレンス本番でした。トレーニングコースはDeveloper向け(3日間)とManager向けのビジネス寄りのコースが有り、合計で100人ぐらいは参加していたと思います。カンファレンスの本番自体は400~500人の参加でした。
まずSystem Adminコースですが、大体以下のような内容でした。
- MapReduceの基本概念
- ハードウェア/ネットワーク機器の選定ポイント
- OSやJavaなど、ソフトウェアでの注意点
- Hadoop(Cloudera Distribution)のインストール方法
- パラメーター/パフォーマンスチューニング(非常に細かい)
- Rack Topologyの定義方法
- HA構成/バックアップ/リカバリー方法
- Fair Shair Schedulerの動作と使用方法
- Gangliaを使用したシステムモニタリング
- Hadoopのログファイルについて
大体6時間ぐらいのコースで、これを聞くとプロダクションレベルでHadoopクラスタを管理できるように一応なるかなという感じでした。結構細かいパラメーターの話が有ったり、個人的に気になっていたFairShair Schedulerの話が聞けたり、かなり勉強になりました。
お金を取っていたので、全部書いていいものか分からないので、内容を聞きたい方は一緒に飲みに行った時にでもこっそり聞いて下さい(?) 参加者とも少し話してみたのですが、広告配信の会社、インドのSIer、西海岸の小さいスタートアップ等、かなり色々な分野の人が集まっているという印象でした。
次はカンファレンス本番の方です。以下は現在公開されているスライドです。見つけ次第、適当に追加していきます。
- Real Time BI with Hadoop
- Prototypoing Data Intensive Apps: TrendingTopics.org
- hBase, Hadoop World NYC
- NexR Terapot: Massive Email Archiving
また参加者全員に、Hadoop: The Definitive Guideが配布されました。
セッションが途中から3パラになっていて、全部聞く事は無理なので、僕が聞いた中で気になったものだけピックアップして書いてみます。
Making Hadoop Easy on Amazon Web Services
Amazon EC2上でのElastic MapReduceの話です。Apache HiveがElastic MapReduce上でサポートされた事が発表されました。またユーザー事例としてeHarmonyという出会い系サイトでの事例が紹介されていました。アメリカでは4%ぐらいのカップルがこのサイト経由で結婚するらしいです。
またKarmasphere Studio for Haodopという、MapReduceアプリケーション開発用のIDEが公開されていました。Elastic MapReduceと連携し、IDE上からMapReduceタスクのテスト/実行/デバッグを行えるようです。

Hadoop Applications at Yahoo!
Yahooでの使用事例の話です。Yahooでは現在約25000台程度のノード上でHadoopが走っているようです。そのうちの約20%が本番用、約60%がResearch目的という事でした。

ただ、Yahoo.comのトップページに表示されているコンテンツの裏では結構使われているようで、Ad Optimization, Search Index, RSS Feeds, Machine Learned Spam Filters, Content Optimization (Personalization?)などなどに使われているようです。

またYahoo Search Assistでは3年間のログを20ステップのMapReduceで処理をすることで、検索時の関連ワード用インデックスを作成しているようです。元々はC++で書かれていて実行に26日かかっていたものが、Pythonで書けるようになった上に実行時間が20分まで縮んだようです。

Rethinking the Data Warehouse with Hadoop and Hive
Facebookでの使用事例です。FacebookではログをHadoopクラスタに取り込んで、解析が行われているようです。

またHiveという、SQLライクなクエリ言語でMapReduceジョブを走らせる仕組みを開発しており、約95%のジョブがHiveQL(QueryLanguage)経由で実行されているようです。アプリケーションとしては、日々のPVなどのReporting・Adhoc-Analysis・Machine Learningに使われているらしいです
What’s new from Cloudera
Web上からMapReduceクラスタについての様々な操作を行ったり、情報を見るためのツール、Cloudera Desktopの紹介でした。
Large Scale Transaction Analysi

VISAでの使用事例です。32ノード程度とまだ評価段階な印象を受けました。20分ぐらいVISAの話でHadoopの話が全然出てこなかったのでちょっと期待外れ…。
Cross Data Center Logs Processing
RackSpaceというホスティング会社での使用事例です。RackSpaceではカスタマーサポート用に、ユーザーが送ったEメールの状態を追跡したり、ログなどをインデックス化して検索できるようにしているらしいです。具体的にはHadoopでLuceneのインデックスを作成し、Solr経由で検索を行っているとの事でした。

Hadoop Development at Facebook: Hive and HDFS
Facebookで行われているHive, HDFSの機能改善の紹介でした。個人的にはHDFS-220のArchival機能の話などが面白かったです。

Cool Development Projects at Yahoo!: Automatic Tuning and Social Graph Analysis
Yahoo Incの方からルールベースでのHadoop Clusterの異常検知手法と、Social Graph解析の話が有りました。後半は学会みたいな乗りでした。
Practical HBase: Getting the most from your HBase install
Stumbleupon, StreamyでのhBaseの内部構成/使用事例の話が有りました。su.prというURL短縮サービスで用いられているようです。約90億エントリ/1300GBで運用されているようです。
またhBaseの最新版ではZooKeeperとのインテグレーションが行われマルチマスター構成でも動作するようになったとの事で、こちらも試してみようかと思います。そういえばHyperTableについては今回は発表は無かったですね。
Hadoop + Vertica
VerticaというColumn-Oriented DBを作っている会社が、Vertica上でのMapReduceをHadoopを使用してサポートしたという話でした。StonebrakerがFounderで有名です。
Input/Output周りをVertica用に作ったと言う話だけだったので、実際どれぐらいパフォーマンスが出てるとか、HDFSと比べてどうとかいう話が無かったので、ちょっと残念でした。
Production Deep Dive with High Availability
ContextWebという広告配信の会社での使用事例の話でした。この会社ではコンテンツマッチをHadoopで行っており、そこがビジネスの根幹であるため、高可用性が求められます。
詳しい内容は、Hadoop HA Configurationを見て頂けると分かります。18か月で約6回のフェイルオーバーが起こり、そのうち約3回は予定していたものという事でした。
とりあえずこんな所です。後半力尽きた感が有るので、夜にでもまた書き足します(^_^:
- Comments: 0
- Trackbacks: 5
Hadoop World 2009 @ NYC
- 2009-10-04 (Sun)
- Hadoop


Hadoop World 2009に参加するために、NewYorkに来ています。参加者は全体で500人ぐらい。日本からは6~7人ぐらい参加していました。
Cloudera (Hadoopの商用サポートを行っている企業) のMike Olson CEO。BerkeleyDBを作っていたSleepyCatの元CEO。

同じくClouderaのChristophe Bisciglia。

名刺交換してると、色々なIndustryの人がいて面白かったです。かなり盛り上がりを感じました。Clouderaの方に聞いた所、小さいウェブスタートアップから、大きいキャリアまで、色々適用範囲が広がっているようです。まだまだ20人ぐらいの会社なのに、プレセンスが大きくて凄いなーと思いました。
個人的には、System Administrator用のトレーニングコースも受けて、色々と運用上のノウハウなども聞けました。意外と細かいパラメーターがパフォーマンスに効いてきて、しかもデフォルト値が悪いやつが多い…。
帰国したら、内容をまとめまたいと思います。
- Comments: 0
- Trackbacks: 0
Home > Archives > 2009-10
-
- February 2010
- December 2009
- November 2009
- October 2009
- September 2009
- August 2009
- July 2009
- June 2009
- May 2009
- April 2009
- March 2009
- February 2009
- January 2009
- December 2008
- November 2008
- October 2008
- September 2008
- August 2008
- July 2008
- June 2008
- May 2008
- April 2008
- March 2008
- February 2008
- January 2008
- December 2007
- November 2007
- October 2007
- September 2007
- August 2007
- July 2007
- June 2007
- May 2007
- April 2007
- March 2007
- February 2007
- January 2007
- December 2006
- November 2006
- October 2006
- September 2006
- August 2006
- July 2006

