[解決済み] Pandasのサンプルデータセット
質問
Rを使うとき、quot;practice;のデータセットをロードするのに便利です。
data(iris)
または
data(mtcars)
Pandasにも同じようなものがあるのでしょうか?私は他のメソッドを使用してロードすることができます知っている、ちょうど組み込みの何かがあるのかどうか興味があります。
どのように解決するのですか?
私が最初にこの回答を書いて以来、Pythonでサンプルデータセットにアクセスするための多くの方法が利用できるようになったので、私はそれを更新しました。個人的には、私はすでに使用しているパッケージ (通常、seabornまたはseaborn) に固執する傾向があります。 個人的には、私はすでに使用しているパッケージ(通常はseabornまたはpandas)に固執する傾向があります。オフラインでアクセスする必要がある場合。 Quiltでデータセットをインストールすることが唯一の選択肢のようです。
Seaborn
華麗なプロットパッケージ
seaborn
にはいくつかのサンプルデータセットが組み込まれています。
import seaborn as sns
iris = sns.load_dataset('iris')
iris.head()
sepal_length sepal_width petal_length petal_width species
0 5.1 3.5 1.4 0.2 setosa
1 4.9 3.0 1.4 0.2 setosa
2 4.7 3.2 1.3 0.2 setosa
3 4.6 3.1 1.5 0.2 setosa
4 5.0 3.6 1.4 0.2 setosa
パンダ
をインポートしない場合は
seaborn
を取り込みたくないが、それでも
そのサンプル
データセット
にアクセスしたい場合は、seaborn のサンプルに対して @andrewwowens のアプローチを使うことができます。
を使うことができます。
iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
なお、カテゴリカラムを含むサンプルデータセットでは、その
カラム
によって変更される。
sns.load_dataset()
で、結果は同じではないかもしれません。
を直接取得することで、結果は同じにならないかもしれません。irisとtipsのサンプルデータセットはpandasのgithub repoにもあります。
pandas の github repo にあります。
ここで
.
Rサンプルデータセット
どのデータセットも
pd.read_csv()
を介して読み込むことができるので
からURLをコピーすることで、Rのサンプルデータセットにアクセスすることができます。
このRデータセット
リポジトリ
.
Rのサンプルデータセットを読み込むその他の方法は以下の通りです。
statsmodel
import statsmodels.api as sm
iris = sm.datasets.get_rdataset('iris').data
from pydataset import data
iris = data('iris')
scikit-learn
scikit-learn
はサンプルデータをpandasのデータフレームではなくnumpyの配列として返します。
フレームとして返します。
from sklearn.datasets import load_iris
iris = load_iris()
# `iris.data` holds the numerical values
# `iris.feature_names` holds the numerical column names
# `iris.target` holds the categorical (species) values (as ints)
# `iris.target_names` holds the unique categorical names
キルト
キルト は、データセット管理を容易にするために作成されたデータセットマネージャです。 データセットマネージャです。以下のような多くの一般的なサンプルデータセットが含まれています。 いくつかの から uciml サンプル リポジトリ . は クイックスタート ページ は、インストール方法 をインストールし、虹彩データセットをインポートする方法を示しています。
# In your terminal
$ pip install quilt
$ quilt install uciml/iris
データセットをインストールすると、ローカルにアクセスできるようになるので、オフラインでデータを扱いたい場合に最適なオプションです。
import quilt.data.uciml.iris as ir
iris = ir.tables.iris()
sepal_length sepal_width petal_length petal_width class
0 5.1 3.5 1.4 0.2 Iris-setosa
1 4.9 3.0 1.4 0.2 Iris-setosa
2 4.7 3.2 1.3 0.2 Iris-setosa
3 4.6 3.1 1.5 0.2 Iris-setosa
4 5.0 3.6 1.4 0.2 Iris-setosa
Quilt はデータセットのバージョン管理もサポートしており、データセットに含まれる 短い 説明 を含めることができます。
関連
-
[解決済み] UnicodeEncodeError: 'ascii' codec can't encode character u'\xa0' in position 20: ordinal not in range(128)
-
[解決済み] PandasでDataFrameの行を反復処理する方法
-
[解決済み] リストを均等な大きさの塊に分割するには?
-
[解決済み] Pandasのカラム名のリネーム
-
[解決済み] Pandas DataFrameからカラムを削除する
-
[解決済み] pandasを使った "大量データ "ワークフロー【終了しました
-
[解決済み】Pandas DataFrameのより多くの列を見るために出力表示を拡大する方法は?
-
[解決済み] タプルのリストを複数のリストに変換するには?
-
[解決済み] subprocess.run()の出力を抑制またはキャプチャするには?
-
[解決済み] Flaskで非同期タスクを作る
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み] pandasのDataFrameから空のセルを含む行を削除する
-
[解決済み] PILからopenCVフォーマットへの変換
-
[解決済み] PythonでSVGからPNGに変換する
-
[解決済み] Pythonのインスタンス変数とクラス変数
-
[解決済み] 値で列挙名を取得する [重複]。
-
[解決済み] 範囲指定された浮動小数点数のランダムな配列を生成します。
-
[解決済み] Jupyter (IPython)ノートブックのセッションをpickleして保存する方法
-
[解決済み] tensorflowのCPUのみのインストールでダイナミックライブラリ 'cudart64_101.dll' を読み込めなかった
-
[解決済み] 単純な文字列からtimedeltaオブジェクトを作成する方法
-
[解決済み] Pythonの辞書にあるスレッドセーフについて