<aside> 💡 類似試算表的資料分析套件

</aside>

1.安裝Pandas 套件

pip install pandas

2.單維度資料 Series
3.雙維度資料 DataFrame

截圖 2023-01-21 下午1.26.40.png

# 載入 Pandas 模組
import pandas as pd
# 以列表資料為底.建立 Series
pd.Series(列表)

# 使用 Series
import pandas as pd
data=pd.Series(列表)
data.max() # 找到最大值
data.median() #計算中位數
data=data*2 #放大兩倍

# 資料索引(自訂索引)
import pandas as pd
pd.Series(資料列表, index=索引列表)

# 資料型態
import pandas as pd
data=pd.Series(資料列表)
# 印出dtype屬性
print(data.dtype)

# 資料數量
import pandas as pd
data=pd.Series(資料列表)
# 印出 size 屬性
print(data.size)

# 根據順序取
import pandas as pd
data=pd.Series(資料列表)
# 取得資料 data[順序]
print(data[1])

# 根據索引取值
import pandas as pd
data=pd.Series(資料列表)
# 取得資料 data[索引]
print(data[索引])

# 數字運算(數學、統計相關)
import pandas as pd
data=pd.Series([3, 10, 20, 5, -12])
# 各種數學、統計運算
print(data.sum(), data.max, data.prod())
print(data.mean(), data.median()中位數, data.std()標準差)
print(data.nlargest(3), data.nsmallest(2))

# 字串運算
import pandas as pd
data=pd.Series(["您好", "Python", "Pandas"])
# 各種字串操作,都定義在str 底下
print(data.str.lower(), data.str.upper(), data.str.len())
print(data.str.cat(sep=","), data.str.contains("P")
print(data.str.replace("您好", "Hello"))

截圖 2023-01-23 上午12.00.54.png

截圖 2023-01-21 下午1.31.03.png

# 建立 DataFrame
# 載入 Pandas 模組
import pandas as pd
# 以字典資料為底,建立DataFrame
pd.DataFrame(字典)

#取得特定欄位(直向)
import pandas as pd
data=pd.DataFrame(字典)
data["欄位名稱"] 
# 建立新的欄位
import pandas as pd
data=pd.DataFrame(字典)
# 以下語法建立新的欄位
data["新欄位名稱"]= 列表資料
data["新欄位名稱"]= Series 型態資料

# 取得特定列(橫向)
import pandas as pd
data=pd.DataFrame(字典)
data.iloc[列編號] #列編號按順序由0開始累加
# 根據索引取一整列
print(data.loc[索引])

# 資料索引(自訂索引)
import pandas as pd
pd.DataFrame(字典, index=索引列表)
# 印出資料索引
print(data.index)

# 資料數量
import pandas as pd
data=pd.DataFrame(字典)
# 印出 size 屬性
print(data.size)

# 資料形狀
import pandas as pd
data=pd.DataFrame(字典)
# 印出 shape 屬性
print(data.shape)

資料索引

截圖 2023-01-22 下午11.41.23.png

截圖 2023-01-21 下午2.10.03.png

截圖 2023-01-21 下午2.17.17.png

截圖 2023-01-21 下午2.18.56.png

截圖 2023-01-21 下午2.21.12.png

截圖 2023-01-21 下午2.21.55.png


篩選資料

# 建立 Series 資料
import pandas as pd
data=pd.Series(列表)
# 建立篩選條件(與資料數量對應的布林值)
condition=[True, False, True]
condition=data>5 (直接透過比較運算產生)
# 根據條件完成篩選
filteredData=data[condition]

# 建立 DataFrame 資料
import pandas as pd
data=pd.DataFrame(字典)
# 建立篩選條件(與資料列數量對應的布林值)
condition=[True, False, True]
condition=data[欄位名稱]>5 (透過特定欄位的比較運算產生)
# 根據條件完成篩選
filteredData=data[condition]