Pythonの基礎を学んだ後、「次はデータ分析をやってみたい」と思う方が多い。その入口になるのがpandasというライブラリです。このページでは、pandasを使ったデータ分析で最初に覚えるべき5つの操作を、具体的なコードとともに説明します。
1. CSVファイルを読み込む ¶
Pandasでデータ分析を始める最初のステップは、データの読み込みです。CSVファイルを読み込むには「pd.read_csv('ファイル名.csv')」と書きます。読み込んだデータはDataFrameという形式で保存され、行と列の表形式で扱えます。日本語のCSVを読み込む場合は、文字コードの指定(encoding='utf-8'またはencoding='shift-jis')が必要になることがあります。
2. データの基本情報を確認する ¶
読み込んだDataFrameに対して「df.head()」を実行すると最初の5行が表示されます。「df.info()」では列名・データ型・欠損値の有無が確認できます。「df.describe()」は数値列の平均・最大値・最小値などの統計情報を出力します。この3つのコマンドを最初に実行する習慣をつけると、データの全体像を把握しやすくなります。
3. 特定の列や行を取り出す ¶
特定の列を取り出すには「df['列名']」と書きます。複数の列を取り出す場合は「df[['列名1', '列名2']]」です。条件に合う行だけを取り出すには「df[df['列名'] > 100]」のように書きます。この操作を組み合わせることで、必要なデータだけを絞り込めます。
4. グループ別に集計する ¶
「df.groupby('列名').sum()」を使うと、指定した列の値でグループ分けして合計を計算できます。たとえば売上データを商品カテゴリ別に集計する場合、「df.groupby('カテゴリ').agg({'売上': 'sum', '件数': 'count'})」のように書くと、カテゴリごとの売上合計と件数を一度に取得できます。
5. 結果をグラフで表示する ¶
Pandasはmatplotlibと連携しており、DataFrameに対して「df.plot()」を呼び出すだけで基本的なグラフを描画できます。棒グラフは「df.plot(kind='bar')」、折れ線グラフは「df.plot(kind='line')」です。グラフのタイトルや軸ラベルはmatplotlibの関数で追加できます。Jupyter Notebookを使うと、コードとグラフを同じ画面で確認できます。
Pandasの基本操作を覚えると、Excelで手作業していた集計作業の多くをPythonで自動化できるようになります。Crystal Stream Terrainの「データ分析基礎(pandas / matplotlib)」コースでは、日本の公開統計データを使った実習課題を通じて、これらの操作を実際に体験できます。コース一覧からサンプル動画をご確認ください。