[解決済み] pandas.read_csvが空の値をnanではなく空文字列として読み込むようにする。

2022-05-15 03:13:34

質問

pandasライブラリを使って、CSVデータを読み込んでいます。私のデータでは、特定の列が文字列を含んでいます。文字列 "nan" は可能な値で、空文字列も同様です。私はpandasに"nan"を文字列として読ませることに成功しましたが、空の値をNaNとして読ませない方法を見つけ出すことができません。以下はサンプルデータと出力です。

One,Two,Three
a,1,one
b,2,two
,3,three
d,4,nan
e,5,five
nan,6,
g,7,seven

>>> pandas.read_csv('test.csv', na_values={'One': [], "Three": []})
    One  Two  Three
0    a    1    one
1    b    2    two
2  NaN    3  three
3    d    4    nan
4    e    5   five
5  nan    6    NaN
6    g    7  seven

正しく "nan" を文字列 "nan' として読みますが、空のセルはやはり NaN として読みます。試しに str の中に converters の引数で、(read_csv に converters={'One': str}) を付けて)読み込んでも、空のセルはNaNとして読み込まれます。

読み込んだ後にfillnaで値を埋めればいいのはわかりますが、特定のCSV列の空のセルをNaNではなく空文字列として読み込むようにpandasに指示する方法は本当にないのでしょうか？

どのように解決するのですか？

ここに何らかのオプションを追加するためのチケットを追加しました。

https://github.com/pydata/pandas/issues/1450

とりあえず result.fillna('') は、あなたが望むことを行う必要があります

EDIT: 開発版 (0.8.0 最終版) では、空のリストで na_values を指定した場合、空文字列は空文字列のまま結果に残ります。

[解決済み] pandas.read_csvが空の値をnanではなく空文字列として読み込むようにする。

質問

どのように解決するのですか？

関連

[解決済み】RuntimeWarning: 割り算で無効な値が発生しました。

[解決済み】なぜ「LinAlgError: Grangercausalitytestsから「Singular matrix」と表示されるのはなぜですか？

[解決済み】ValueError: pickleプロトコルがサポートされていません。3、python2 pickleはpython3 pickleでダンプしたファイルを読み込むことができない？

[解決済み] Pythonで文字列の部分文字列を取得するにはどうすればよいですか？

[解決済み] なぜlist.join(string)ではなくstring.join(list)なのでしょうか？

[解決済み] 文字列が空かどうかを確認する方法は？

[解決済み] NaN値をチェックするにはどうすればよいですか？

[解決済み] テキストファイルを文字列変数に読み込んで、改行を除去するには？

[解決済み】ilocとlocはどう違うのですか？

[解決済み】NaNを含むPandasカラムを `int` 型に変換する

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

Pythonの学習とデータマイニングのために知っておくべきターミナルコマンドのトップ10

pyCaret効率化乗算器オープンソースローコード Python機械学習ツール

Python Pillow Image.save jpg画像圧縮問題

[解決済み】ImportError: sklearn.cross_validation という名前のモジュールがない。

[解決済み】TypeErrorの修正方法。Unicodeオブジェクトは、ハッシュ化する前にエンコードする必要がある？

[解決済み】numpy: true_divide で無効な値に遭遇

[解決済み】Python Error: "ValueError: need more than 1 value to unpack" （バリューエラー：解凍に1つ以上の値が必要です

[解決済み】LogisticRegression: Pythonでsklearnを使用して、未知のラベルタイプ： '連続'を使用しています。

[解決済み】Python: OverflowError: 数学の範囲エラー

[解決済み】Python - "ValueError: not enough values to unpack (expected 2, got 1)" の修正方法 [閉店].