まるやくんのブログ

使ってみて便利だと思ったモノやサービス、仕事やプライベートで学んでいる事を紹介します。

Python pandas 欠損値の除去

こんばんは。まるやくんです。データの集計や分析を行う際にデータの前処理が必要になります。例えば文字列や数値が半角、全角で統一されていなかったり、データが重複していたり、そもそもデータが欠けているなどです。今回はデータが欠損している状態を想定して、欠損値を除去する方法を紹介します。

  1. pandas, numpy, nanのインポート
  2. 適当な配列を作成しデータフレームを作成
  3. 任意の箇所に欠損値を代入
  4. 要約統計量を算出
  5. dropna で欠損値を削除 

 

欠損値を全て除去するのは非常に簡単ですが、データの集計結果や分析結果が変わるという点に注意が必要です。次回は欠損値を生かす為に、欠損値を穴埋めする方法について紹介します。