[解決済み] RのNearZeroVarとは何ですか?
2022-02-16 03:56:03
質問
巨大なデータセットがあり、その中から分散の小さい列を除外したいので、NearZeroVarという言葉を使いたいと思います。しかし、freqCutとuniqueCutが何をするのか、そしてそれらがどのようにお互いに影響し合っているのかを理解するのに苦労しています。私はすでにRの説明を読みましたが、それはこの件に関してはあまり役に立ちません。 もし誰かが私にそれを説明することができれば、私は非常に感謝します!
どのように解決するのですか?
変数の変化や変動がほとんどない場合、それは定数のようなもので、予測には役に立ちません。この場合、分散がゼロに近くなるため、この関数の名前になりました。
2つのパラメータは互いに影響し合うことはなく、ゼロに近い分散の変数を生じさせる一般的なシナリオに対処するために存在します。列が除外されるには、両方の基準を満たさなければなりません。
例で説明しましょう。
mat = cbind(1,rep(c(1,2),c(8,1)),rep(1:3,3),1:9)
mat
[,1] [,2] [,3] [,4]
[1,] 1 1 1 1
[2,] 1 1 2 2
[3,] 1 1 3 3
[4,] 1 1 1 4
[5,] 1 1 2 5
[6,] 1 1 3 6
[7,] 1 1 1 7
[8,] 1 1 2 8
[9,] 1 2 3 9
もしデフォルトで、最も一般的な値から2番目とユニークな値に対して95/5を要求すると、1番目のカラムだけが取り出されるのがわかります。
nearZeroVar(mat)
[1] 1
2列目を見てみましょう。最も一般的な値から2番目に多い値は8/1で、ユニークな値は2つあり、2/9 = 0.22となります。したがって、これをフィルタリングするためには、2つの設定を変更する必要があります。
nearZeroVar(mat,freqCut=7/1,uniqueCut=30)
[1] 1 2
最後に、フィルタリングしない方がいいのは3列目か4列目なので、無意味なものを設定するときにフィルタリングする列です。
nearZeroVar(mat,freqCut=0.1,uniqueCut=50)
[1] 1 2 3
関連
-
[解決済み] 不適合な配列のコードエラー
-
[解決済み] Stataバージョン5-12の.dtaファイルではない
-
[解決済み】Rの整数オーバーフローとは何ですか、そしてどのように起こるのですか?
-
[解決済み】起動時にパーをデフォルト値にリセットする方法
-
[解決済み] Rの代入演算子"="と"<-"の違いは何ですか?
-
[解決済み] なぜ `[`] は `subset` よりも優れているのですか?
-
[解決済み】data.table vs dplyr:一方がうまくできない、またはうまくできないことを行うことができますか?
-
[解決済み】リスト内の複数のdata.frameを同時にマージする方法
-
[解決済み】曜日を調べる
-
[解決済み】Rでデータ列を標準化する
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み】エラー:私のコードで予期しないシンボル/入力/文字列定数/数値定数/SPECIALが発生した
-
[解決済み】model.frame.defaultでのエラー:変数の長さが異なる
-
[解決済み】library(ggplot2)でエラー:'ggplot2'というパッケージは存在しません。
-
[解決済み】x[[i]]でのエラー:レベル2で再帰的インデックス作成に失敗した
-
[解決済み】Rのメモリ管理/サイズn Mbのベクトルを割り当てられない
-
[解決済み】RでKNN。trainとclassは長さが違う」?
-
[解決済み】Rで結果の行数がベクトル長(arg 2)の倍数でない件
-
[解決済み】ggplot2でのプロット:「Error: カテゴリ軸のY軸に "Discrete value supplied to continuous scale "と表示される。
-
[解決済み】行列式で「数値/複雑な行列/ベクトルの引数を必要とする」というエラーが発生する?
-
[解決済み】dplyr: "Error in n(): 関数は直接呼ばれるべきではありません"