1. ホーム
  2. python

[解決済み] LabelEncoder: TypeError: '>' は 'float' と 'str' のインスタンスの間でサポートされていません。

2022-02-09 04:01:18

質問

複数の変数について、欠損値を扱ってもこのエラーが発生します。 例えば

le = preprocessing.LabelEncoder()
categorical = list(df.select_dtypes(include=['object']).columns.values)
for cat in categorical:
    print(cat)
    df[cat].fillna('UNK', inplace=True)
    df[cat] = le.fit_transform(df[cat])
#     print(le.classes_)
#     print(le.transform(le.classes_))


---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-24-424a0952f9d0> in <module>()
      4     print(cat)
      5     df[cat].fillna('UNK', inplace=True)
----> 6     df[cat] = le.fit_transform(df[cat].fillna('UNK'))
      7 #     print(le.classes_)
      8 #     print(le.transform(le.classes_))

C:\Users\paula.ceccon.ribeiro\AppData\Local\Continuum\Anaconda3\lib\site-packages\sklearn\preprocessing\label.py in fit_transform(self, y)
    129         y = column_or_1d(y, warn=True)
    130         _check_numpy_unicode_bug(y)
--> 131         self.classes_, y = np.unique(y, return_inverse=True)
    132         return y
    133 

C:\Users\paula.ceccon.ribeiro\AppData\Local\Continuum\Anaconda3\lib\site-packages\numpy\lib\arraysetops.py in unique(ar, return_index, return_inverse, return_counts)
    209 
    210     if optional_indices:
--> 211         perm = ar.argsort(kind='mergesort' if return_index else 'quicksort')
    212         aux = ar[perm]
    213     else:

TypeError: '>' not supported between instances of 'float' and 'str'

エラーの原因となった変数をチェックすると、結果が表示されます。

df['CRM do Médico'].isnull().sum()
0

nan値以外に、このエラーを引き起こす可能性のあるものは何でしょうか?

解決方法は?

これはシリーズによるものです df[cat] には、さまざまなデータ型 (文字列や浮動小数点数) を持つ要素が含まれています。 これは、データの読み込み方法、つまり数値は float、テキストは文字列として読み込まれるか、データ型が float であったものが fillna 演算が必要です。

言い換えると

pandas のデータ型 'Object' は str 型ではなく、mixed 型を示します。

ということで、以下の行を使用。

df[cat] = le.fit_transform(df[cat].astype(str))


が役立つはずです。