Pandas 利用ノート

本稿は Pandas に関する個人的なノートだ。

簡単に説明すると、Pandas というのは Python で書かれたサードパーティー製パッケージであって、スプレッドシートや SQL データベースのテーブルのような、二次元の表形式のデータ構造に関するさまざまな機能を提供するものだ。

次のようなことが得意であったり、長所があると公式文書では言っている:

  • 欠損値の処理

  • データセットのサイズ変化

  • 集計や変換のための group-by 処理

  • ラベルに基づくスライシング、インデックス付け、巨大データの部分集合参照

  • 直感的なデータセットの併合、結合

  • データセットの柔軟な表変形、ピボット操作

  • 階層的なラベル付け:目盛に複数のラベルを付けられる

  • 色々な形式でのファイル I/O

  • 時系列特有のデータ範囲生成、頻度変換、窓関数、ずらしといった機能

関連リンク

Pandas

開発サイト。