1. ホーム
  2. python

[解決済み] Pandasのサンプルデータセット

2022-10-17 10:17:20

質問

Rを使うとき、quot;practice;のデータセットをロードするのに便利です。

data(iris)

または

data(mtcars)

Pandasにも同じようなものがあるのでしょうか?私は他のメソッドを使用してロードすることができます知っている、ちょうど組み込みの何かがあるのかどうか興味があります。

どのように解決するのですか?

私が最初にこの回答を書いて以来、Pythonでサンプルデータセットにアクセスするための多くの方法が利用できるようになったので、私はそれを更新しました。個人的には、私はすでに使用しているパッケージ (通常、seabornまたはseaborn) に固執する傾向があります。 個人的には、私はすでに使用しているパッケージ(通常はseabornまたはpandas)に固執する傾向があります。オフラインでアクセスする必要がある場合。 Quiltでデータセットをインストールすることが唯一の選択肢のようです。

Seaborn

華麗なプロットパッケージ seaborn にはいくつかのサンプルデータセットが組み込まれています。

import seaborn as sns

iris = sns.load_dataset('iris')
iris.head()

   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa

パンダ

をインポートしない場合は seaborn を取り込みたくないが、それでも そのサンプル データセット にアクセスしたい場合は、seaborn のサンプルに対して @andrewwowens のアプローチを使うことができます。 を使うことができます。

iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')

なお、カテゴリカラムを含むサンプルデータセットでは、その カラム によって変更される。 sns.load_dataset() で、結果は同じではないかもしれません。 を直接取得することで、結果は同じにならないかもしれません。irisとtipsのサンプルデータセットはpandasのgithub repoにもあります。 pandas の github repo にあります。 ここで .

Rサンプルデータセット

どのデータセットも pd.read_csv() を介して読み込むことができるので からURLをコピーすることで、Rのサンプルデータセットにアクセスすることができます。 このRデータセット リポジトリ .

Rのサンプルデータセットを読み込むその他の方法は以下の通りです。 statsmodel

import statsmodels.api as sm

iris = sm.datasets.get_rdataset('iris').data

PyDataset

from pydataset import data

iris = data('iris')

scikit-learn

scikit-learn はサンプルデータをpandasのデータフレームではなくnumpyの配列として返します。 フレームとして返します。

from sklearn.datasets import load_iris

iris = load_iris()
# `iris.data` holds the numerical values
# `iris.feature_names` holds the numerical column names
# `iris.target` holds the categorical (species) values (as ints)
# `iris.target_names` holds the unique categorical names

キルト

キルト は、データセット管理を容易にするために作成されたデータセットマネージャです。 データセットマネージャです。以下のような多くの一般的なサンプルデータセットが含まれています。 いくつかの から uciml サンプル リポジトリ . は クイックスタート ページ は、インストール方法 をインストールし、虹彩データセットをインポートする方法を示しています。

# In your terminal
$ pip install quilt
$ quilt install uciml/iris

データセットをインストールすると、ローカルにアクセスできるようになるので、オフラインでデータを扱いたい場合に最適なオプションです。

import quilt.data.uciml.iris as ir

iris = ir.tables.iris()

   sepal_length  sepal_width  petal_length  petal_width        class
0           5.1          3.5           1.4          0.2  Iris-setosa
1           4.9          3.0           1.4          0.2  Iris-setosa
2           4.7          3.2           1.3          0.2  Iris-setosa
3           4.6          3.1           1.5          0.2  Iris-setosa
4           5.0          3.6           1.4          0.2  Iris-setosa

Quilt はデータセットのバージョン管理もサポートしており、データセットに含まれる 短い 説明 を含めることができます。