2007年06月27日

Seattle Conference on Scalability

Seattle Conference on ScalabilityのレポートがWeb上に上がってきていて、結構面白いです。こういう時ブログ検索は役立ちますね。

今のところこのブログが詳しいです。私的には論文に載ってないユースケースとかが参考になりました。

せっかく分散ファイルシステム書いたんだし、MapReduceも数十台で動くところまで作ってみようかなぁ。

追記: 2007/07/08
一部の講演についてはビデオが公開されています。

2007年06月24日

うがー

なんというMakegumi。

本番こそは。

上流工程?(2)

学科の同級生のぴらぴら君がなにやら代弁してくれている。

「上流工程?」の気分

前エントリへのコメントは意味不明だったけど(笑)、エントリの方は大分言いたい事を言ってくれている感じがした。

ちょっと厳しいことを言うと、時間さえかければできるソフトウェア開発なんて、これからの日本でやることではない。そういう仕事は、いずれ Bangaloreあたりに持っていかれてしまう。だって、日本でエンジニア1人雇うお金で、向こうでは何人か雇えて、しかも日本で雇われる1人より向こうで雇われる何人かの方が豊かになれるんだもの。向こうに仕事が行くほうが福利の総和は大きそうなものだ。「海外に仕事が流れる?でも日本には日本語があって、日本語の習得は面倒だから大丈夫」というかも知れないけれど、それなら、日本語しか使えない顧客の相手と、ソフトウェアの日本語化とだけを日本でやればいいという話になる。

全くその通りだと思う。まぁ製品レベルに仕上げるためには時間をかけなければいけない部分もあるのだけれど。

「技術者が経営者となるか、経営者が技術者化するか」しないといけないのだろうか。実はもうひとつの道があって「技術のことは全然わからないから、任せるけど、とにかくおもしろいことをやれ」とけしかける経営者である。

PFIは完全に前者だけど、ぴらぴら君のところは後者(だよね?)。まぁどちらが良いかは分からないけど、技術的なところが分からない上司にあれこれ言われたくないのは一緒だなーと思った。ぴらぴら君のところもかなり優秀な人が集まってなにやら企てているのは知っているので、是非頑張って欲しい。

yastakさんに返事。SEがComputerScienceと関係が無いっていってるのは日本だけじゃないのかなーという気がしてます。アメリカだともうちょっとましという話がちらほら。SEは文系就職だみたいな事実が業界全体に漫然と広がってるから日本は駄目なんじゃないかなーと思ってます。

あ、もちろんコードを書かない管理職的なSEの場合の話は除きます。そっちの方だったらすいません。しかしCPU作りあげてあんまり深く学んでないとはちょっと安売りしすぎじゃないですかね(笑)

2007年06月21日

PFI

先日CNetさんがPFIのオフィスにいらっしゃったのですが、そのときの記事が今日掲載されたようです。


世界が認める頭脳が集結したガレージ--検索エンジンのPFI - CNet Venture View

身近な人がロゴになってるのは非常に不思議な気分ですね。ようやく収益もある程度確保できて、色々やりたい事がやれるようになってきたので、興味が有る方は是非メールを下さい。

最近は一週間後のIPAX 2007に向けて準備をしていたりします。

上流工程?

友達の子が某社のSEに内定が決まったというので、飲み会で話をきいてみた。

「プログラミングは研修で勉強するの?」
「一応C++っていうのはやるみたいだけど、主に上流工程をやるからあんまりいらないんだって。」

どこをどう突っ込んだらいいのか分からねー。そういう所には行きたくないと思った。現状でComputerScienceを深く学んだ人を評価してくれる企業ってほとんど無いんだろうな。

学科の先輩を見てると某G社に行く人が大量増殖してて問題になってるらしいけど、傍目から見てると消去法で決めてるような気もしなくもないんだよなぁ。もちろん本人に聞かないと分からないけど。博士に行くのも日本だとリスクが高いし、お金の問題も有るし、だったらGにという人もいるらしい。なんだかねー。

こういうエントリを書いても損ばっかりな事は分かってるんだけど、色々考えさせられたので。

2007年06月19日

Memory Parity Error?

E-Mobileのカード差し込んだら高頻度でブルースクリーン(NMI: Memory Parity Error)。

ThinkpadのPCカードスロット不良なのか、E-Mobileのカード不良なのか、ドライバの不良なのか。ハードウェアトラブルは初めてなのでどうすりゃいいのやら...。

とりあえず明日問題を切り分けよう。

2007年06月18日

演習3三期開始

細谷研MONAを用いたHardware Verificationをやります。

とりあえずMONAで色々遊んでみよう。

2007年06月16日

指きたっす

E-Mobile D01NEを購入しました。

E-Mobile D01NE

Youtubeやニコニコ動画も普通に見れる衝撃の速さです。無線LANかと勘違いしてしまう程です。今までのデータカードは何だったんだ・・・。これで山手線からもSSHで作業できそうです。ただし地下は全滅らしい。

アキバヨドバシでE-Mobileの開通を待っている間ぶらぶらしてたら、モンスターハンターフロンティアが売っていたので本気で購入を迷いましたが、なんとか諦める事が出来ました。帰ってからPSPで久々にモンハン2をプレイ。こっちの方は近くに一緒にやれる人がいないのでまだプレイ時間120時間ですんでます。

2007年06月12日

係り受け解析: まとめ

TeXを頑張って覚えて最終レポートを書いたので、ここで晒す事にします。

MEによる日本語係り受け解析

素性選択よりは色々な解析手法を試して精度向上したいなぁと思って作業していたのですが、限界が見えてきたので早めにまとめ上げました。

一緒に辻井研に行っているtmym氏がMEでLinear-time dependency analysis for Japanese [Sassano 04]の方式を試していて、面白い結果が出ているので期待。7500文/secって何ですか。

2007年06月06日

ESPer 2007

ESPer 2007が告知されました。

昨年は米国から帰って来たその日で、疲労でドタキャンしてしまいましたが、今年は行こうと思います。西川さんが講演するみたいです。

2007年06月05日

libaio(Linuxの非同期I/Oライブラリ)の使い方

Linuxで非同期I/Oを行うためのライブラリ「libaio」の使い方を書いてみる事にする。少し昔の話になるが、lighttpdが使用し、スループットを80%も上げたらしい。

TOEFLに向けて転置ファイルについての論文(Inverted files for text search engine [moffat 06])でReading対策をしていたところ、意外とスニペット(検索にヒットした箇所の前後の文章)を作るところが時間がかかるという事を教えてもらったので、適当にそれを例題にしてみる。具体的には以下のようなコードを非同期I/Oを使用して速くなるかどうか見てみる。

for (unsigned int i = 0; i < files.size(); i++) {
  FILE* fp = fopen(files[i].c_str(), "rb");
  if (fp == NULL) continue;

  fseek(fp, offsets[i], SEEK_SET);

  char buf[64];
  size_t nread = fread(buf, 1, 64, fp);

  fclose(fp);
}

ファイルリストとそれに付随するオフセットのリストが与えられた時、各ファイルの指定位置から64 byteづつ読み込むようなプログラムだ。

色々高速化する手段は有るが、日本語でlibaioの使い方が解説してあるところがなかったので、布教も兼ねて書いてみる。

libaio(Linuxの非同期I/Oライブラリ)の使い方の続きを読む

2007年06月01日

係り受け解析: 実装

土日がTOEFLで潰れるらしいので、ちょっとやばいという事で昨日から実装しだしました。今週は急がしすぎ・・・。

AmisというME用の学習機の使い方を覚えるのに朝まで悩み、結局TAのid:u-noさんに助言を貰ってなんとか使えるようになりました。

京大コーパスのパーサーを書いて論文に載っている素性をばしばし追加したら、正解率85%。とりあえず今週はここまででいいかな・・・。正解率を上げるためには、鬼パラメーターチューニング or 方式の根本的な変更が必要そう。

大先生によるとSVMではカーネルおじさんがパラメーターチューニングをしてくれるらしい。確かにチューニングを問題毎にやってたら萎えるなぁ・・・。大体決められたセットに対して制度が上がったところでCPU実験的な虚しさもあるし(レイトレしか速く動かない)。

来週はAmisに手を入れて速くしたり、「Linear-time dependency analysis for Japanese[Sassano 04]」を読んでみたりしようかと思います。そして最後に高速 & 大規模学習をしてみてどれぐらい正解率が上がるかというのを見てみようかと思います。