アクセスランキング生成系

まあ元祖なんて謳うのはほかに誇れることがないからだったりしますが、 なんとなく私の知る限りこれが元祖かな、と。 ちなみに、RCSのログを漁ったら初出は1994/08/17でした。 もっと前に作られたものも、たぶん、探せばあるでしょう。 (^^; クライアントのドメインを集計するanalogなんかも当時既にありましたしね。

実際のところ、吐かれたログをあとから解析するなんざ非効率そのもので、 本来はサーバの内蔵機能として統計データの累積は実装されるべきものですが、 なに、ちょうど、awkにも飽きてPerlの連想配列で遊びたかった時期だったのですよ。 ほかにも、関数定義をevalしてみたり、大きくなりすぎた連想配列を dbmopenして外へ出してみたりなど、いろいろ遊んでますが、 formatをいじり倒す前に飽きたようです。 (^^;

これは当時のソースのほぼそのままです。 ログをばらして集計する部分は、NCSA httpdのアクセスログの フォーマットを前提にハードコードしちゃってます。 これも正しくはYACC+LEXの類で生成すべきものです。

最初のうちはCGI起動してたんですが、 そのうちになぜかこのランキング自体が人気ページになってしまい、 ホストの負荷が重くて仕方なくなったので、 cronで一日一回走らせるだけにした、なんてこともありました。

一応、能書きもありまして。

たくさんの人で共有するWWWサーバに対する メタインデックスを自動生成し始めると、 やがて、インデックスのサイズが膨らみすぎて、 そんな巨大なインデックスを表示されても 読み手の役には立たなくなってしまいます。

そこで、いかにして大量のドキュメントに対して効率のよいインデックスを作るか、 という課題に対してたくさんありうる解のひとつとして示したつもりではありました。

アクセス数の多いドキュメントはそれだけ重要度が高いという 尺度もありうるだろう、というわけです。


BACK TO:


Copyright (C) 2001 by MIURA Toshitaka
All rights reserved.

last update: $Date: 2001/11/29 14:37:54 $


MIURA, Toshitaka <miura@computer.org>