wget + フリーソフト

  • wgetで階層の深さの指定(今は表層の1層だけ)をとってきて、
  • それを、おおまかにhtmlタグをとるべく、こんなフリーソフト(H2Tconv)を使ってテキストファイル化してしまうことにする
  • wget on Windowsこちら)
  • H2Tconvはこちら
  • Wikipediaはありがたいことに、記事タイトルが決まれば、URLも(ほぼ)決まるので、そのURLを指定すればよい
  • H2Tconvも複数htmlファイルの指定が可能なので、テキスト化できる
  • まず
paste("wget -O list_",LETTERS[1:26],".htm http://en.wikipedia.org/wiki/Wikipedia:WikiProject_Mathematics/List_of_mathematics_articles_(",LETTERS[1:26],")",sep="")
  • などとして、wget用のコマンドをA-Zで作ろう
wget -O list_A.htm http://en.wikipedia.org/wiki/Wikipedia:WikiProject_Mathematics/List_of_mathematics_articles_(A)
wget -O list_B.htm http://en.wikipedia.org/wiki/Wikipedia:WikiProject_Mathematics/List_of_mathematics_articles_(B)
wget -O list_C.htm http://en.wikipedia.org/wiki/Wikipedia:WikiProject_Mathematics/List_of_mathematics_articles_(C)
wget -O list_D.htm http://en.wikipedia.org/wiki/Wikipedia:WikiProject_Mathematics/List_of_mathematics_articles_(D)
wget -O list_E.htm http://en.wikipedia.org/wiki/Wikipedia:WikiProject_Mathematics/List_of_mathematics_articles_(E)
wget -O list_F.htm http://en.wikipedia.org/wiki/Wikipedia:WikiProject_Mathematics/List_of_mathematics_articles_(F)
…
  • これを"hoge.bat"とかにして、実行すれば、
list_A.htm
list_B.htm
list_C.htm
list_D.htm
list_E.htm
list_F.htm
...
  • のようなローカルファイルができるから
  • それをH2Tconv.exeに渡すと1枚のテキストファイルができて、その中に、まだ加工を要するが記事タイトルがおさまったファイルができる
...
Time complexity -- Time dependent vector field -- Time derivative -- Time deviation -- Time domain -- Time evolution -- Time evolution of integrals -- Time–frequency analysis -- Time–frequency analysis for music signals -- Time–frequency representation -- Time hierarchy theorem -- Time-invariant system -- Time reversibility -- Time-scale calculus -- Time series -- Time use survey -- Time value of money -- Time-variant system -- Timelike homotopy -- Timelike simply connected -- Timeline of abelian varieties -- Timeline of algebra -- Timeline of algorithms -- Timeline of calculus and mathematical analysis -- Timeline of category theory and related mathematics -- Timeline of classical mechanics -- Timeline of geometry -- Timeline of mathematical innovation in South and West Asia -- Timeline of mathematical logic -- Timeline of mathematics -- Timeline of number theory -- Timeline of numerals and arithmetic -- Timeline of numerical analysis after 1945 -- Timeline of probability and st
...
  • この記事タイトルを取り出して、
http://en.wikipedia.org/wiki/Theta_function
  • のようなurlにすれば、再度wgetを使って記事を取ってこれる。
  • これをtmパッケージでPCorpusにしてやれば良さそう…