[解決済み] pandas read_csvのseparatorを不規則な空白に対してより柔軟にする方法は?
2023-01-20 19:33:31
質問
ファイルからデータを読み込み、データフレームを作成したい。
read_csv
メソッドを使用してファイルからデータを読み込み、データフレームを作成する必要があります。しかし、セパレータはあまり規則的ではありません。いくつかの列はタブで区切られています (
\t
) で区切られる列もあれば、スペースで区切られる列もあります。さらに、いくつかの列は 2 つまたは 3 つ以上のスペースで区切られていたり、スペースとタブの組み合わせ (例えば、3 つのスペース、2 つのタブ、そして 1 つのスペース) で区切られていることもあります。
これらのファイルを適切に扱うようにpandasに指示する方法はありますか?
ちなみに、Pythonを使うとこの問題は発生しません。私は使っています。
for line in file(file_name):
fld = line.split()
そして、それは完璧に動作します。フィールドの間に2つのスペースがあっても3つのスペースがあっても関係ありません。スペースとタブの組み合わせでも問題は発生しません。パンダも同じことができるのでしょうか?
どのように解決するのですか?
からの
ドキュメント
を使用すると、正規表現か
delim_whitespace
:
>>> import pandas as pd
>>> for line in open("whitespace.csv"):
... print repr(line)
...
'a\t b\tc 1 2\n'
'd\t e\tf 3 4\n'
>>> pd.read_csv("whitespace.csv", header=None, delimiter=r"\s+")
0 1 2 3 4
0 a b c 1 2
1 d e f 3 4
>>> pd.read_csv("whitespace.csv", header=None, delim_whitespace=True)
0 1 2 3 4
0 a b c 1 2
1 d e f 3 4
関連
-
[解決済み] データフレームをピボットするにはどうしたらいいですか?
-
[解決済み】Pandas DataFrameのより多くの列を見るために出力表示を拡大する方法は?
-
[解決済み】python pandasが重複したカラムを削除します。
-
[解決済み] SQLAlchemy: セッションの作成と再利用
-
[解決済み] Pythonのインスタンス変数とクラス変数
-
[解決済み] データフレームをソートした後にインデックスを更新する
-
[解決済み] オブジェクトのリストに特定の属性値を持つオブジェクトが含まれているかどうかをチェックする
-
[解決済み] Pythonによる一対のクロスプロダクト [重複] (英語)
-
[解決済み] Pythonでファイルの読み込みと上書きをする
-
[解決済み] Pythonでリストが空かどうかをチェックする方法は?重複
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み] PythonでのAWS Lambdaのインポートモジュールエラー
-
[解決済み] Pythonでコード行間にかかる時間を測定するには?
-
[解決済み] PythonでSVGからPNGに変換する
-
[解決済み] 範囲指定された浮動小数点数のランダムな配列を生成します。
-
[解決済み] pandasのタイムゾーンに対応したDateTimeIndexを、特定のタイムゾーンに対応したナイーブなタイムスタンプに変換する。
-
[解決済み] Python Logging でログメッセージが2回表示される件
-
[解決済み] Pythonによる一対のクロスプロダクト [重複] (英語)
-
[解決済み] Flaskで非同期タスクを作る
-
[解決済み] Django filter queryset __in for *every* item in list
-
[解決済み] pandasでスペース区切りのファイルを読み込む方法