[解決済み] Rで重複する値を探す【重複】について
質問
21638のユニーク*な行を持つテーブルがあります。
vocabulary <- read.table("http://socserv.socsci.mcmaster.ca/jfox/Books/Applied-Regression-2E/datasets/Vocabulary.txt", header=T)
このテーブルには5つのカラムがあり、最初のカラムには回答者のID番号が格納されています。回答者が 2 回表示されるかどうか、またはすべての回答者が一意であるかどうかを確認したいのです。
ユニークIDを数えるには
length(unique(vocabulary$id))
そして、重複があるかどうかをチェックするために、次のようにします。
length(unique(vocabulary$id)) == nrow(vocabulary)
を返します。
TRUE
重複がなければ(ないのですが)。
私の質問です。
重複している値や行番号を直接返す方法はありますか?
もう少し詳しく説明します。
を使用すると、解釈上の問題があります。
duplicated()
なぜなら、これは厳密な意味での重複を返すだけで、オリジナルは含まれないからです。例えば
sum(duplicated(vocabulary$id))
または
dim(vocabulary[duplicated(vocabulary$id),])[1]
は、重複している行の数として "5"を返すかもしれません。問題は、重複している行の数だけでは、その行が何行目なのかがわからないということです。5"5"は5つの行がそれぞれ1つずつ重複しているという意味でしょうか、それとも1つの行に5つ重複しているという意味でしょうか?また、重複している行のIDや行番号が分からないので、quot;original"を見つける手段もありません。
*
このアンケートに重複するIDがないことは承知していますが、この質問に対して他の場所で回答されたものを使用すると、例えば
duplicated(vocabulary$id)
または
table(vocabulary$id)
を実行すると、画面に干し草の山が出力され、その中から希少な重複する針を見つけるのは至難の業です。
解決するには?
を使用することができます。
table
は、すなわち
n_occur <- data.frame(table(vocabulary$id))
のリストを含むデータフレームが得られます。
id
とその発生回数が表示されます。
n_occur[n_occur$Freq > 1,]
は、どの
id
が複数回発生しました。
vocabulary[vocabulary$id %in% n_occur$Var1[n_occur$Freq > 1],]
は、複数の出現回数を持つレコードを返します。
関連
-
[解決済み】'builtin'型のオブジェクトはsubsetableではない【重複
-
[解決済み】エラー:ベクターメモリの枯渇(制限に達したか) R 3.5.0 macOS
-
[解決済み】library(ggplot2)でエラー:'ggplot2'というパッケージは存在しません。
-
[解決済み】RでのMLEエラー:'vmmin'の初期値が有限でない
-
[解決済み】データのマージ - fix.by(by.x, x)のエラー)
-
[解決済み】match.fun(FUN)でのエラーについて)
-
[解決済み】 if/while (条件) {: TRUE/FALSEが必要な場所に値がない場合のエラー
-
[解決済み】.External.graphics Rでエラーが発生しました。
-
[解決済み] [Solved] data.frameで全てまたは一部のNA(欠損値)を含む行を削除する。
-
[解決済み】data.table vs dplyr:一方がうまくできない、またはうまくできないことを行うことができますか?
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み】エラー:ベクターメモリの枯渇(制限に達したか) R 3.5.0 macOS
-
[解決済み】scale_color_manual()が動作しない件
-
[解決済み】ベースグラフィックスでプロットエリアの外側に凡例をプロットする?
-
[解決済み】RでのMLEエラー:'vmmin'の初期値が有限でない
-
[解決済み】GLM解析での警告
-
[解決済み】データのマージ - fix.by(by.x, x)のエラー)
-
[解決済み】ロジスティック回帰 - eval(family$initialize) : y 値は 0 <= y <= 1 である必要があります。
-
[解決済み】エラー - replacement has [x] rows, data has [y].
-
[解決済み] テスト
-
[解決済み] "添え字が小さい要素 "を含む、重複する行をすべて見つける