サブグループ内の順位、試験の季節に思うこと



今、N個の値の集合があるとする。それらをn個ずつk個の部分集合に分ける。

今、全体N個の中での、順番がi番目の値が、n個の部分集合内で、1番になる確率は、どうなるだろうか。

また、このようにして選ばれる、k個の部分集合内の1番の値の期待値はいくつになるだろうか?

季節柄、同一試験をいくつかのサブグループに実施して、そのサブグループごとの特徴抽出を考える、という意味合いもあるし、また、「最小値」分布という意味では、マルチプルテスティング問題の入り口という意味もある。

  • 考え方1
    • i番目が所属する部分集合の取り方は、k通り _kC_1
    • i番がその部分集合中の最小値であるということは、その部分集合の残りの要素 n-1個がiより小さいN-i個の要素によって占められるということ。そのような取り方はX(N-i,n-1)= _{N-i}C_{n-1}、ただし、N-i<n-1のときは0
    • i番が属する部分集合のn個の要素が決まった。このn個の並べ方は任意なので、その並べ方はn!
    • 一方、残りのN-n個の要素はどうならべてもよく、その並べ方は(N-n)!
    • すべての並べ方はN!なので、
    • i番目の値が、部分集合で最小となる確率は¥frac{_kC_1 ¥times X(N-i,n-1) ¥times n! ¥times (N-n)!}{N!}
  • 考え方2
    • N個からn個を選ぶ選び方は_NC_n
    • 選ばれたn個が、i番目と、それより大きなn-1個とで構成されるような、n個の取り方は1¥times X(N-i,n-1)= _{N-i}C_{n-1}、ただし、N-i<n-1
    • ある部分集合において、i番目の値が最小である確率は¥frac{1¥times X(N-i,n-1)}{_NC_n}
    • k個の部分集合のどれで、この状況が成立してもよいので、i番目の値が、n個要素の部分集合中で1番になる確率はk¥times ¥frac{1¥times X(N-i,n-1)}{_NC_n}
  • 考え方1と2で出た確率の式は簡単な式変形で同一であることがわかる。
  • 部分集合の最小値の期待値は、i番目の値とその値が部分集合の最小値となる確率の積を、i=1,...,Nについて足し合わせて、部分集合の数で除した値になる。
  • たとえば、100要素があって、それに1から100までの順番が振られているとする。25要素ずつの4部分集合に分ける場合を考える。100要素がランダムに分けられた場合、1番が部分集合の最小値となる確率は1、2番のそれは0.7576、3番のそれは0.5720、4番のそれは0.4305、。。。4つの部分集合の最小値の期待値は、3.885である。逆に、4要素ずつの25部分集合に分けた場合には、1,2,3,4番が部分集合の1番になる確率は、1,0.9697,0.9400,0.9109...となり、25個の部分集合中最小値の期待値は20.2となる。
  • この計算を試すためのエクセルがこちら。・・・雑に作ってあって(説明が少ない)、しかも重いです。
  • 順序統計→Wikipediaの記事