Biomedical text mining - ryamadaの遺伝学・遺伝統計学メモ

医学・生物学領域ではpubmed,MeSH,オントロジーなどテキストマイニングが進んでいる。それをBoimedical text miningと呼び、Wikiの記事としても独立しているようだ
こちらなどで、テキスト情報のハンドリングをしている
そのこころは、今のところ、こんな感じ
Wikiのフリーテキストを使うことを想定しているが、Wikiの文書のテキストマイニングについては、こんなコメントもある(自由度が高く、使いにくい)
そうは言っても、やってみないと始まらないので、Wiki記事を取ってくる(もしくはネット接続でアクセスしながら読みとる)必要がある
Wikiにはオフライン版があって、それには.zimファイル形式という圧縮形式があって、そのビューアにKiwix(こちら)というのがあるそうだ
Kiwixをダウンロードすると、どんな.zimファイルがほしいですか？と訊いてくれて、各国語版のWikiに混じってICD10もあった
こちらにWikiのダウンロードサイトがある
ここだと、ちなみに英語版Wikiの.zimファイルには２種類あって、絵あり、絵なしの2通り
また、このダウンロードサイトには、２つのダウンロード方法があって、(1)"Download",(2)Bittorrent
このBittorrentって何→Wiki:"Peer ro Peerを用いたファイル転送用プロトコル及びその通信を行うソフトウェアである。「急流のように速く(ファイルを)落とせる」という意味を持つ"のだそうだ
このBitTorrentを使った科学データのファイル共有サービスにBioTorrenstsというのがあるそうだ(こちら)
- この背景を少し
  - FTP(File Transfer Protocol)は１サーバが出所
  - Bio-Mirrorという仕組み、複数のシンクロしたサーバから取れるようにした
  - が、次世代シークエンスデータのSRAとかは対応していない状態
    - SRAにはasperaというのを使っているらしい(こちら)
  - Tranche Projectというのがあるのだとか(オープンソース)。セキュリティ対応している多サーバ情報提供の仕組み。ただしメンテナンスなどは大変だそうだ
  - その後継がPeer-to-peerを使ったもので、Gnutella,LimeWire, Shareaza,BearShareなどがあるそうだ
  - その後、BitTorrent。Amazon simple storage service(Amazon S3,Twitterにも使われている
  - このBitTorrentは、データを514Kb-2Mbに分けて、あっちこっちから取れるようにしている。checksumはピースごとに行い、ピースワイズでインタクトの確認を取った断片をプールしておいて、それらの束として全体の入手の完成を確認する
  - ただし、京都大学ではPeer-to-peerが許可されないですが…
まずは「絵なし」のWikipedia英語版.zimファイルから記事名を指定してテキスト取り出しを実現してみたい