Rのquantile()関数について説明する。
質問
Rの分位数関数がずっと謎なんですが。
私は分位数がどのように機能するかについて直感的な概念を持っており、統計学の修士号を持っていますが、少年よ、それのためのドキュメントは私を混乱させるのです。
ドキュメントから。
Q[i](p) = (1 - gamma) x[j] + gamma x[j+1]となります。
ここまでは一緒なんですが 型に対して i の場合、x[j] と x [j+1] の間を補間するもので、謎の定数 ガンマ
ここで、1 <= i <= 9, (j-m)/n <= p < (j-m+1)/ n, x[j]はj次統計量、nはサンプルサイズ、mはm次統計量です。 統計量,n は標本サイズ,m は標本分位型によって決まる定数である。 によって決まる定数である。ここでガンマは g = np+m-j の分数部分に依存します。
では、j,mはどのように計算するのでしょうか?
連続標本の分位数 タイプ(4から9)については、標本 分位数は、k次間の線形補間により k次統計量とp(k)の間の線形補間 統計量とp(k)の間の線形補間によって得ることができます。
p(k) = (k - alpha) / (n - alpha - beta). + 1), ここでαとβは型によって決まる定数で である。さらに、m=α+p(1 - α - β)、γ = g となります。
今まで定数だったpが、どうやら関数になったようです。
つまり、Type 7 の分位数では、デフォルトは...
タイプ7
p(k) = (k - 1) / (n - 1)です。この場合、p(k) = mode[F(x[k])] となります。これはSが使用します。
どなたか教えてください。 特にpが関数と定数という表記に戸惑っているのですが、一体何なのでしょう m は一体何なのか、そして今、ある特定の p .
ここでの回答をもとに、よりよく説明できるような改訂版のドキュメントを提出できればと思います。
quantile.Rのソースコード またはタイプ:quantile.default
どのように解決するのですか?
当然ながら、あなたは混乱しています。 そのドキュメントはひどいものです。 私は、そのベースとなった論文 (Hyndman, R.J.; Fan, Y. (November 1996). "Sample Quantiles in Statistical Packages") に戻らざるを得ませんでした。 アメリカン スタティスティシャン 50 (4): 361-365. doi:10.2307/2684934 )を見て、理解を深めましょう。 まず、最初の問題から見てみましょう。
ここで、1 <= i <= 9, (j-m)/n <= p < (j-m+1)/ n, x[j] はj次の統計量、nはサンプルサイズ、mはサンプル分位型により決まる定数です。ここでガンマはg = np+m-jの分数部に依存します。
最初の部分は論文からそのまま来ていますが、ドキュメントの作成者が省略したのは、以下の点です。
j = int(pn+m)
. これはつまり
Q[i](p)
であることに最も近い2つの順序統計にのみ依存することを意味します。
p
に最も近い2つの順序統計量にのみ依存します。 (私のように、この用語に馴染みのない人のために、オブザベーションの系列の "順序統計" はソートされた系列です)。
また、その最後の文はちょうど間違っています。 次のように読むべきです。
ここでガンマは np+m の小数部に依存し、g = np+m-j となります。
については
m
については、簡単です。
m
は、9つのアルゴリズムのうちどれが選ばれたかに依存します。 ですから、ちょうど
Q[i]
は分位点関数である。
m
と考えるべきでしょう。
m[i]
. アルゴリズム1、2については
m
は 0、3 の場合は
m
は-1/2、その他は次のパートになります。
連続標本分位型(4~9)については、k次の統計量とp(k)との線形補間により標本分位を求めることができます。
p(k) = (k - alpha) / (n - alpha - beta + 1), ここでαとβはタイプによって決まる定数です。さらに、m = alpha + p(1 - alpha - beta)、gamma = gです。
これは本当に紛らわしいですね。 ドキュメントが呼んでいるのは
p(k)
は
p
の前にあった
p(k)
は
プロット位置
. この論文では,次のように書いています.
p
k
というように、記述しておくと便利です。 特に
m
の式では
p
は元の
p
であり
m = alpha + p * (1 - alpha - beta)
. 概念的には、アルゴリズム4-9では、点(
p
k
,
x[k]
) を補間して解を得る (
p
,
Q[i](p)
). それぞれのアルゴリズムが異なるのは
p
k
.
最後の部分については、RはSが使っているものを述べているだけです。
元の論文では、標本分位関数に望ましい6つの性質が挙げられており、1によってすべてを満たす#8が好ましいと述べられています。 #5はそのすべてを満たすが、他の理由で好ましくない(原理から導かれるというより現象論的である)。 #2は、私のような統計オタクでない人が分位数を考えるもので、wikipediaに記載されているものです。
ちなみに dreevesの回答 , Mathematica は著しく異なることをします. マッピングは理解できたと思います. Mathematicaのものは理解しやすいのですが、(a)無意味なパラメータで自分の足を撃つのが簡単で、(b)Rのアルゴリズム2番ができません。 (以下は MathworldのQuantileのページ をご覧ください.このページでは,Mathematica は#2ができないと述べていますが,4つのパラメータの観点から他のすべてのアルゴリズムのより単純な一般化を示しています).
関連
-
[解決済み】n個のノードを持つ有向グラフの最大エッジ数は何個ですか?[クローズド]。
-
[解決済み] スケールファクターまで
-
[解決済み] 2つの整数の最小公倍数を計算する最も効率的な方法は何でしょうか?
-
[解決済み] 簡単な面接問題が難しくなった:1~100の数字が与えられたとき、ちょうどk個の数字が欠けていることを見つけなさい。
-
[解決済み] JavaScriptで整数の除算を行い、余りを別途取得する方法は?
-
[解決済み] 統計的最頻値の求め方は?
-
[解決済み】関数f(f(n))を設計する == -n
-
[解決済み] 複数の緯度経度座標ペアの中心点を計算する
-
[解決済み] GUIDは常に一意であると仮定しても安全ですか?
-
[解決済み] マルコフ連鎖は有限状態機械と同じか?
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み] 算術オーバーフローと算術キャリーの比較
-
[解決済み] Mathematica の行列対角化
-
[解決済み] tf.truncated_normalとtf.random_normalの違いは何ですか?
-
[解決済み】「エントロピーと情報利得」って何?
-
[解決済み】ポリゴンの点のリストが時計回りに並んでいるかどうかを判断する方法は?
-
[解決済み】なぜ10進数は2進数で正確に表現できないのですか?
-
[解決済み] バックプロパゲーション・ニューラルネットワークで非線形活性化関数を使用しなければならない理由は何ですか?[クローズド]
-
[解決済み] atan2()を0-360度へマップする方法
-
[解決済み] 任意精度の算術演算 解説
-
[解決済み] なぜフィボナッチ級数はアジャイル・プランニング・ポーカーに使われるのか?[クローズド]