pandasは、データ操作や分析を簡単に行うためのライブラリです。DataFrameを使ってデータを操作し、データの読み込み、書き込み、変換、フィルタリングなどを行います。この章では、pandasの基本的な使い方について学びます。
まず、pandasライブラリをインポートします。通常、pd という別名を使用してインポートします。
DataFrameは、pandasでデータを扱うための主要なデータ構造です。辞書やリストからDataFrameを作成することができます。
# 辞書からDataFrameを作成
=
=
# 出力:
# Name Age
# 0 Alice 25
# 1 Bob 30
リストやタプルを使ってもDataFrameを作成できます。
# リストからDataFrameを作成
=
=
# 出力:
# Name Age
# 0 Alice 25
# 1 Bob 30
pandasは、CSV、Excel、SQL、JSONなど、さまざまな形式のデータを読み込むことができます。
# CSVファイルの読み込み
=
# CSVファイルへの書き込み
# Excelファイルの読み込み
=
# Excelファイルへの書き込み
DataFrameを使ってデータをフィルタリングすることで、特定の条件に一致する行を抽出できます。
# 条件に一致する行の抽出
=
# 出力:
# Name Age
# 1 Bob 30
pandasでは、列や行を選択してデータを抽出する方法がいくつかあります。
# 列の選択
=
# 出力:
# 0 Alice
# 1 Bob
# Name: Name, dtype: object
# 複数の列の選択
=
# 出力:
# Name Age
# 0 Alice 25
# 1 Bob 30
# 行の選択(ラベルで指定)
=
# 出力:
# Name Alice
# Age 25
# Name: 0, dtype: object
# 行の選択(インデックスで指定)
=
# 出力:
# Name Alice
# Age 25
# Name: 0, dtype: object
新しい列を追加したり、既存の列を削除したりすることができます。
# 新しい列の追加
=
# 出力:
# Name Age City
# 0 Alice 25 New York
# 1 Bob 30 Los Angeles
# 列の削除
=
# 出力:
# Name Age
# 0 Alice 25
# 1 Bob 30
# 行の削除
=
# 出力:
# Name Age
# 1 Bob 30
pandasは、データの集計や統計計算のための便利なメソッドを提供しています。
# 基本統計量の計算
# 出力:
# Age
# count 2.000000
# mean 27.500000
# std 3.535534
# min 25.000000
# 25% 26.250000
# 50% 27.500000
# 75% 28.750000
# max 30.000000
# グループ化と集計
=
# 出力:
# Age
# City
# Los Angeles 30.000000
# New York 25.000000
pandasでは、データの欠損値を検出し、処理するためのメソッドも豊富に用意されています。
# 欠損値の検出
# 出力:
# Name Age
# 0 False False
# 1 False False
# 欠損値の除去
=
# 欠損値の埋める
=
この章では、pandasの基本的な使い方について学びました。pandasは、データの操作と分析のための強力なツールを提供します。次の章では、matplotlibによるデータの可視化について学びます。データを視覚的に表現することで、洞察を得ることができます。