applymap
:元素級apply
:行列級transform
:行列級還有另外一個管道函數(shù)pipe()
,是表級的應(yīng)用函數(shù)。
以下是內(nèi)容展示,完整數(shù)據(jù)、和代碼可戳??《pandas進階寶典V1.1.6》進行了解。
函數(shù):
pipe函數(shù)可應(yīng)用在series和dataframe兩個數(shù)據(jù)結(jié)構(gòu)上。
series.pipe(func, *args, **kwargs)
dataframe.pipe(func, *args, **kwargs)
------
返回:函數(shù)的返回類型
參數(shù):
df.pipe(np.exp).pipe(lambda x:round(x,2))
以上pipe
分別傳入了numpy的exp函數(shù)和逆函數(shù),都是單個函數(shù),實現(xiàn)了對數(shù)據(jù)進行了e次方操作,并結(jié)果保留小數(shù)點后兩位有效數(shù)字。
當(dāng)只傳入一個函數(shù)時,pipe()
的效果等同于直接用函數(shù)對dataframe處理:func(df)
,與apply()
、applymap()
、map()
等的處理結(jié)果是一樣的。
這種基礎(chǔ)操作建議優(yōu)先使用apply()
函數(shù),pipe()
函數(shù)的精髓在于鏈式調(diào)用。
我們先用三個函數(shù)分別對dataframe操作。
df_01 = np.square(df)
df_02 = np.multiply(df_01, 1.5)
df_03 = np.add(df_02, 8)
三個函數(shù)按順序依次對dataframe操作,第一個函處理后的結(jié)果返回給第二個函數(shù),第二個給第三個。如果想省略臨時的dataframe也可以將函數(shù)像下面這樣套用一行代碼解決。
rlt = np.add(np.multiply(np.square(df), 1.5), 8)
但上面的寫反可讀性太差了,一點不優(yōu)雅,而且隨著嵌套增多非常容易看錯。這種情況就該pipe()
管道函數(shù)登場了。
pi = df.pipe(np.square). \
pipe(np.multiply, 1.5). \
pipe(np.add, 8)
或者
pi = (df.pipe(np.square)
.pipe(np.multiply, 1.5)
.pipe(np.add, 8))
pipe鏈式調(diào)用的原理是:
pipe將每次執(zhí)行完的函數(shù)結(jié)果傳遞給下一個函數(shù),即上個輸出作為下個函數(shù)的輸入,以此類推像鏈子一樣可以一直傳遞下去,這也是管道函數(shù)名字的由來。
這樣做的優(yōu)點是:
pipe()
默認情況下會將dataframe傳給調(diào)用函數(shù)的第一個參數(shù),但一些函數(shù)在定義時第一個參數(shù)并不是用來接收dataframe輸入數(shù)據(jù)的,如果直接將函數(shù)傳到pipe()
中會提示報錯。
為了解決這個問題,pipe()
中規(guī)定了一種特殊的參數(shù)傳遞方法,是元組(callable, data_keyword)的形式。
callable
:指定在pipe()
中調(diào)用的函數(shù)data_keyword
:指定將dataframe傳給函數(shù)中的哪一個參數(shù)def spcl(num, df):
return df.add(num)
df.pipe((spcl,'df'), 2)
以上pipe()
中用(spcl,'df')
代替了常規(guī)時的函數(shù)spcl
,清楚地指明了函數(shù)中的df
參數(shù)是接受dataframe數(shù)據(jù)的參數(shù),這樣就不會報錯。此外,函數(shù)的*args和**kwargs傳遞方式不變。