1. ホーム
  2. math

Rのquantile()関数について説明する。

2023-09-24 09:20:13

質問

Rの分位数関数がずっと謎なんですが。

私は分位数がどのように機能するかについて直感的な概念を持っており、統計学の修士号を持っていますが、少年よ、それのためのドキュメントは私を混乱させるのです。

ドキュメントから。

Q[i](p) = (1 - gamma) x[j] + gamma x[j+1]となります。

ここまでは一緒なんですが 型に対して i の場合、x[j] と x [j+1] の間を補間するもので、謎の定数 ガンマ

ここで、1 <= i <= 9, (j-m)/n <= p < (j-m+1)/ n, x[j]はj次統計量、nはサンプルサイズ、mはm次統計量です。 統計量,n は標本サイズ,m は標本分位型によって決まる定数である。 によって決まる定数である。ここでガンマは g = np+m-j の分数部分に依存します。

では、j,mはどのように計算するのでしょうか?

連続標本の分位数 タイプ(4から9)については、標本 分位数は、k次間の線形補間により k次統計量とp(k)の間の線形補間 統計量とp(k)の間の線形補間によって得ることができます。

p(k) = (k - alpha) / (n - alpha - beta). + 1), ここでαとβは型によって決まる定数で である。さらに、m=α+p(1 - α - β)、γ = g となります。

今まで定数だったpが、どうやら関数になったようです。

つまり、Type 7 の分位数では、デフォルトは...

タイプ7

p(k) = (k - 1) / (n - 1)です。この場合、p(k) = mode[F(x[k])] となります。これはSが使用します。

どなたか教えてください。 特にpが関数と定数という表記に戸惑っているのですが、一体何なのでしょう m は一体何なのか、そして今、ある特定の p .

ここでの回答をもとに、よりよく説明できるような改訂版のドキュメントを提出できればと思います。

quantile.Rのソースコード またはタイプ:quantile.default

どのように解決するのですか?

当然ながら、あなたは混乱しています。 そのドキュメントはひどいものです。 私は、そのベースとなった論文 (Hyndman, R.J.; Fan, Y. (November 1996). "Sample Quantiles in Statistical Packages") に戻らざるを得ませんでした。 アメリカン スタティスティシャン 50 (4): 361-365. doi:10.2307/2684934 )を見て、理解を深めましょう。 まず、最初の問題から見てみましょう。

ここで、1 <= i <= 9, (j-m)/n <= p < (j-m+1)/ n, x[j] はj次の統計量、nはサンプルサイズ、mはサンプル分位型により決まる定数です。ここでガンマはg = np+m-jの分数部に依存します。

最初の部分は論文からそのまま来ていますが、ドキュメントの作成者が省略したのは、以下の点です。 j = int(pn+m) . これはつまり Q[i](p) であることに最も近い2つの順序統計にのみ依存することを意味します。 p に最も近い2つの順序統計量にのみ依存します。 (私のように、この用語に馴染みのない人のために、オブザベーションの系列の "順序統計" はソートされた系列です)。

また、その最後の文はちょうど間違っています。 次のように読むべきです。

ここでガンマは np+m の小数部に依存し、g = np+m-j となります。

については m については、簡単です。 m は、9つのアルゴリズムのうちどれが選ばれたかに依存します。 ですから、ちょうど Q[i] は分位点関数である。 m と考えるべきでしょう。 m[i] . アルゴリズム1、2については m は 0、3 の場合は m は-1/2、その他は次のパートになります。

連続標本分位型(4~9)については、k次の統計量とp(k)との線形補間により標本分位を求めることができます。

p(k) = (k - alpha) / (n - alpha - beta + 1), ここでαとβはタイプによって決まる定数です。さらに、m = alpha + p(1 - alpha - beta)、gamma = gです。

これは本当に紛らわしいですね。 ドキュメントが呼んでいるのは p(k)p の前にあった p(k) プロット位置 . この論文では,次のように書いています. p k というように、記述しておくと便利です。 特に m の式では p は元の p であり m = alpha + p * (1 - alpha - beta) . 概念的には、アルゴリズム4-9では、点( p k , x[k] ) を補間して解を得る ( p , Q[i](p) ). それぞれのアルゴリズムが異なるのは p k .

最後の部分については、RはSが使っているものを述べているだけです。

元の論文では、標本分位関数に望ましい6つの性質が挙げられており、1によってすべてを満たす#8が好ましいと述べられています。 #5はそのすべてを満たすが、他の理由で好ましくない(原理から導かれるというより現象論的である)。 #2は、私のような統計オタクでない人が分位数を考えるもので、wikipediaに記載されているものです。

ちなみに dreevesの回答 , Mathematica は著しく異なることをします. マッピングは理解できたと思います. Mathematicaのものは理解しやすいのですが、(a)無意味なパラメータで自分の足を撃つのが簡単で、(b)Rのアルゴリズム2番ができません。 (以下は MathworldのQuantileのページ をご覧ください.このページでは,Mathematica は#2ができないと述べていますが,4つのパラメータの観点から他のすべてのアルゴリズムのより単純な一般化を示しています).