導讀:今天這篇文章是「大數據」內容合伙人JaneK關于《Python數據分析與數據化運營》的一篇讀書筆記。在大數據公眾號后臺對話框回復合伙人,免費讀書、與50萬「大數據」同行分享你的洞見。
作者:JaneK,希望能夠成為數據分析師
來源:華章科技
本文目錄:
Python數據分析與挖掘
01 基本知識
02數據獲取
03數據預處理
04 分析與挖掘方法
Python數據化運營案例
05 會員數據化運營
06 商品數據化運營
07 流量數據化運營
08 內容數據化運營
09 數據化運營分析的終極秘籍
1. 數據化運營
2. Python工具和組件
1. 數據來源
2. 獲取數據
1. 數據清洗
2. 標志轉換
3. 數據降維
是否降維主要考慮因素:維度數量;建模輸出是否必須保留原始維度;對模型的計算效率與建模時效性的要求;是否要保留完整數據特征。
基于特征選擇:根據一定的規(guī)則和經驗,直接選取原有維度的一部分參與后續(xù)的計算和建模過程。其優(yōu)點是,在保留了原有維度特征的基礎上進行降維,既能滿足后續(xù)數據處理和建模的要求,又能保留維度原本的業(yè)務含義,便于業(yè)務理解和應用。
基于特征轉換:按照一定的數學變換方法,把高維數據映射到低維空間;產生新維度。
基于特征組合:實際上是將輸入特征與目標預測變量做擬合的過程;很多時候并不能減少特征的數量。
4. 樣本分布不均
常見場景:異常檢測場景;客戶流失場景;罕見事件的分析;發(fā)生低頻率的事件。
5. 樣本抽樣
6. 共線性問題
檢驗共線性的指標:
常用方法:
7. 相關性理解
8. 標準化
目的:處理不同規(guī)模和量綱的數據,使其縮放到相同的數據區(qū)間和范圍,以減少規(guī)模、特征、分布差異對模型的影響。
9. 離散化
1. 聚類分析
典型算法:K均值、DBSCAN、兩步聚類、BIRCH、譜聚類等
算法選擇:
2. 回歸分析
3. 分類分析
4. 關聯(lián)分析
5. 異常檢測分析
6. 時間序列分析
7. 路徑、漏斗、歸因和熱力圖分析
8. 其他忠告
1. 重要指標
會員整體指標:
會員營銷指標:
會員活躍度指標:
會員價值度指標:
會員終生價值指標:
會員異動指標:
2. 應用場景
會員營銷:
會員關懷:
3. 分析模型
4. 小技巧
1. 重要指標
銷售指標:
促銷活動指標:
供應鏈指標:
2. 應用場景
3. 分析模型
4. 小技巧
1. 重要指標
站外營銷推廣指標:
網站流量質量指標:
網站流量數量指標:
2. 應用場景
3. 分析模型
4. 小技巧
1. 主要指標
內容質量指標:
SEO類指標:
內容流量指標:參考流量運營指標
內容互動指標:
2. 應用場景
3. 分析模型
4. 小技巧
1. 撰寫出彩的數據分析報告的5個建議
2. 數據化運營支持的4種擴展方式
3. 提升數據化運營價值度的5種途經
這本書很適合數據分析初學者使用,不僅有詳細的理論內容,而且配有豐富的案例分析。這本書中的很多知識點很多很細,而且很多是作者的經驗總結,記住它們不是主要目的,只有真正通過實踐和理解才能領悟??催^之后,對數據化運營會有一個全面的認識,是一本值得反復閱讀學習的好書。