1. ホーム
  2. python

[解決済み] Pandas: dtype 'object' を int に変換する。

2022-03-12 18:16:41

質問

SQLクエリをPandasに読み込んだところ、文字列、日付、整数であるにもかかわらず、値が'object'型として入ってきました。日付の 'object' は Pandas の datetime 型に変換できましたが、文字列と整数を変換しようとするとエラーが発生します。

以下はその例です。

>>> import pandas as pd
>>> df = pd.read_sql_query('select * from my_table', conn)
>>> df
    id    date          purchase
 1  abc1  2016-05-22    1
 2  abc2  2016-05-29    0
 3  abc3  2016-05-22    2
 4  abc4  2016-05-22    0

>>> df.dtypes
 id          object
 date        object
 purchase    object
 dtype: object

を変換して df['date'] をdatetimeに変換するとうまくいきます。

>>> pd.to_datetime(df['date'])
 1  2016-05-22
 2  2016-05-29
 3  2016-05-22
 4  2016-05-22
 Name: date, dtype: datetime64[ns] 

を変換しようとすると、エラーが発生します。 df['purchase'] を整数に変換してください。

>>> df['purchase'].astype(int)
 ....
 pandas/lib.pyx in pandas.lib.astype_intsafe (pandas/lib.c:16667)()
 pandas/src/util.pxd in util.set_value_at (pandas/lib.c:67540)()

 TypeError: long() argument must be a string or a number, not 'java.lang.Long'

注意: 同じようなエラーが発生します。 .astype('float')

また、文字列に変換しようとしても、何も起こらないようです。

>>> df['id'].apply(str)
 1 abc1
 2 abc2
 3 abc3
 4 abc4
 Name: id, dtype: object

解決方法は?

piRSquared さんのコメントを元に、自分にとって有効だった答えを文書化。

まず文字列に変換し、次に整数に変換する必要がありました。

>>> df['purchase'].astype(str).astype(int)