zimHttpServer.pl

  • Wikipediaの圧縮・配布・再利用にhoge.zimというファイル形式があることを昨日書いた
  • このzimファイルを読むアプリをzim readerと呼んでKiwixもその一つ
  • Wikipediaらしくオープンソースで進められているOpenZim
  • 記事のテキスト部分だけがほしいので、整形する一歩手前の情報が取りたいのだが…
  • perlでzimファイルを読んでブラウザにhtml形式(?)で表示させるzim readerが"zimHttpServer.pl"
    • ちなみに、このファイルをブラウザやテキストエディタは「日本語」で表示しようとするので文字化けするようだ。エンコードを英数半角のみ(秀丸なら『欧文』?)にすると、文字化けは解消するようだ
  • これの中身を見ると、
	use:
zim.pl file.zim
  • とある。これだけで基本的には動くわけなので…
  • 検索した記事は
&output_articleNumber($articleNumber)
  • のようだ。さらにさかのぼって