[解決済み】pandasでdataframeのcolumn-slicesを取得する方法
質問
CSVファイルから機械学習データを読み込みました。最初の2列は観測値で、残りの列は特徴量である。
現在、以下のようにしています。
data = pandas.read_csv('mydata.csv')
のようなものが得られます。
data = pandas.DataFrame(np.random.rand(10,5), columns = list('abcde'))
このデータフレームを2つのデータフレームにスライスしたいと思います。
a
と
b
というカラムを含むものと
c
,
d
と
e
.
のような書き方はできません。
observations = data[:'c']
features = data['c':]
どのような方法がベストなのか、よくわかりません。を必要とするのでしょうか?
pd.Panel
?
ところで、dataframeのインデックスはかなり矛盾していると思うのですが。
data['a']
は許可されますが
data[0]
はありません。反対側では
data['a':]
は許されないが
data[0:]
があります。
何か実用的な理由があるのでしょうか?カラムがIntでインデックスされている場合、これは非常に紛らわしいです。
data[0] != data[0:1]
どうすればいい?
2017 Answer - pandas 0.20: .ix は非推奨です。.locを使用します。
をご覧ください。 docsのdeprecationを参照してください。
.loc
は、ラベルベースのインデックスを使用して、行と列の両方を選択します。ラベルとは、インデックスや列の値のことです。によるスライシングは
.loc
は最後の要素を含んでいます。
以下のようなカラムを持つDataFrameがあるとします。
foo
,bar
,quz
,ant
,cat
,sat
,dat
.
# selects all rows and all columns beginning at 'foo' up to and including 'sat'
df.loc[:, 'foo':'sat']
# foo bar quz ant cat sat
.loc
は、Pythonのリストと同じスライス表記を行と列の両方で受け入れることができます。スライス記法とは
start:stop:step
# slice from 'foo' to 'cat' by every 2nd column
df.loc[:, 'foo':'cat':2]
# foo quz cat
# slice from the beginning to 'bar'
df.loc[:, :'bar']
# foo bar
# slice from 'quz' to the end by 3
df.loc[:, 'quz'::3]
# quz sat
# attempt from 'sat' to 'bar'
df.loc[:, 'sat':'bar']
# no columns returned
# slice from 'sat' to 'bar'
df.loc[:, 'sat':'bar':-1]
sat cat ant quz bar
# slice notation is syntatic sugar for the slice function
# slice from 'quz' to the end by 2 with slice function
df.loc[:, slice('quz',None, 2)]
# quz cat dat
# select specific columns with a list
# select columns foo, bar and dat
df.loc[:, ['foo','bar','dat']]
# foo bar dat
行と列でスライスすることができます。例えば、5行のラベルがある場合
v
,
w
,
x
,
y
,
z
# slice from 'w' to 'y' and 'foo' to 'ant' by 3
df.loc['w':'y', 'foo':'ant':3]
# foo ant
# w
# x
# y
関連
-
python string splicing.join()とsplitting.split()の説明
-
[解決済み] PandasでDataFrameの行を反復処理する方法
-
[解決済み] 列の値に基づいてDataFrameから行を選択するにはどうすればよいですか?
-
[解決済み] Pandasのカラム名のリネーム
-
[解決済み] Pandas DataFrameからカラムを削除する
-
[解決済み] Pandasのデータフレームで複数の列を選択する
-
[解決済み] Pandas DataFrameの行数を取得する方法は?
-
[解決済み] 既存のDataFrameに新しい列を追加する方法は?
-
[解決済み] pandasを使った "大量データ "ワークフロー【終了しました
-
[解決済み】Pandas DataFrameのカラムヘッダからリストを取得する。
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
ピローによる動的キャプチャ認識のためのPythonサンプルコード
-
pythonを使ったオフィス自動化コード例
-
Python入門 openを使ったファイルの読み書きの方法
-
Python Pillow Image.save jpg画像圧縮問題
-
[解決済み】お使いのCPUは、このTensorFlowバイナリが使用するようにコンパイルされていない命令をサポートしています。AVX AVX2
-
[解決済み】numpy: true_divide で無効な値に遭遇
-
[解決済み】 NameError: グローバル名 'xrange' は Python 3 で定義されていません。
-
[解決済み】TypeErrorを取得しました。エントリを持つ子テーブルの後に親テーブルを追加しようとすると、 __init__() missing 1 required positional argument: 'on_delete'
-
[解決済み】django インポートエラー - core.managementという名前のモジュールがない
-
[解決済み】ilocとlocはどう違うのですか?