1. ホーム
  2. r

[解決済み] dplyr join warning: 異なるレベルの因子を結合する場合

2022-02-25 12:11:12

質問

でjoin関数を使用する場合 dplyr パッケージでは、このような警告が表示されます。

Warning message:
In left_join_impl(x, y, by$x, by$y) :
  joining factors with different levels, coercing to character vector

ネット上でもあまり情報がありません。 何か心当たりはありませんか? ありがとうございます。

解決方法は?

これはエラーではなく、警告です。結合で使用したカラムの1つが因子であり、その因子が異なるデータセットで異なるレベルを持っていることを告げています。情報を失わないために、因子は文字値に変換されました。例えば

library(dplyr)
x<-data.frame(a=letters[1:7])
y<-data.frame(a=letters[4:10])

class(x$a) 
# [1] "factor"

# NOTE these are different
levels(x$a)
# [1] "a" "b" "c" "d" "e" "f" "g"
levels(y$a)
# [1] "d" "e" "f" "g" "h" "i" "j"

m <- left_join(x,y)
# Joining by: "a"
# Warning message:
# joining factors with different levels, coercing to character vector 

class(m$a)
# [1] "character"

マージする前に、両方のファクターが同じレベルであることを確認することができます。

combined <- sort(union(levels(x$a), levels(y$a)))
n <- left_join(mutate(x, a=factor(a, levels=combined)),
    mutate(y, a=factor(a, levels=combined)))
# Joining by: "a"
class(n$a)
#[1] "factor"