免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
最全整理!萬字原創(chuàng)讀書筆記,數據分析的知識點全在這里了

導讀:今天這篇文章是「大數據」內容合伙人JaneK關于《Python數據分析與數據化運營》的一篇讀書筆記。在大數據公眾號后臺對話框回復合伙人,免費讀書、與50萬「大數據」同行分享你的洞見。

作者:JaneK,希望能夠成為數據分析師

來源:華章科技

本文目錄:

Python數據分析與挖掘

01 基本知識

02數據獲取

03數據預處理

04 分析與挖掘方法

Python數據化運營案例

05 會員數據化運營

06 商品數據化運營

07 流量數據化運營

08 內容數據化運營

09 數據化運營分析的終極秘籍

01 基本知識

1. 數據化運營

  • 概念:指通過數據化的工具、技術和方法,對運營過程中的各個環(huán)節(jié)進行科學分析、引導和應用,從而達到優(yōu)化運營效果和效率、降低成本、提高效益的目的。
  • 分類:輔助決策式數據化運營(為業(yè)務決策方服務,整個過程都由運營人員掌控,數據是輔助角色);數據驅動式數據化運營(數據是主體,需要IT、自動化系統(tǒng)、算法等支持,具有自主導向性、自我驅動性和效果導向性)
  • 數據驅動式流程:數據需求溝通(需求產生、需求溝通)→數據分析建模(獲取數據、預處理、分析建模、數據結論)→數據落地應用(數據結論溝通、數據部署應用、后續(xù)效果監(jiān)測和反饋)

2. Python工具和組件

  • 搭建Python環(huán)境、交互環(huán)境Jupyter
  • 科學計算庫:Numpy、Scipy、Pandas、Statsmodels、Imblearn、gplearn
  • 機器學習庫:scikit-learn、XGBoost、LightGBM、TPOT
  • 自然語言處理庫:結巴分詞、Gensim
  • 數據庫連接庫:MySQL連接庫、MongoDB連接庫
  • HTML處理庫:Beautiful Soup
  • 圖形展示庫:Matplotlib、Pyecharts
  • 圖像處理庫:PIL和Pillow、OpenCV

02 數據獲取

1. 數據來源

  • 數據文件:以數字或文本形式存儲的結構化的數據記錄,數據格式類型有txt、csv、tsv、xls、xlsx、xml、html、doc、sql等
  • 數據庫:關系型數據庫(DB2、Sybase、Oracle、PostgreSQL、SQL Server、MySQL等);非關系型數據庫(Redis、Tokyo Cabinet、Voldemort、MongoDB、CouchDB、Cassandra、HBase、Riak、Neo4J等)
  • API:服務型API(基于預定義的規(guī)則,通過調用API實現(xiàn)特定功能);數據型API(通過特定語法,通過向服務器發(fā)送數據請求,返回特定格式的數據或文件)
  • 流式數據:用戶行為數據流(圍繞“人”產生的數據流;采集平臺可分為Web站、移動站、App應用三類,前兩類支持JS腳本采集,后者使用SDK);機器數據流(圍繞“物”產生的數據流;通常集中在工業(yè)4.0、智能工廠等工業(yè)的智能運營管理過程中,也出現(xiàn)在物聯(lián)網、人工智能等人和物的監(jiān)控、識別、聯(lián)通、互動等智能化應用中)
  • 外部公開數據:政府和相關機構提供的公開數據;競爭對手主動公開的數據;行業(yè)協(xié)會或相關平臺組織提供的統(tǒng)計、資訊數據;第三方的組織或個人披露的與企業(yè)相關的數據。
  • 其他:例如提供調研問卷獲得的有關產品、客戶等方面的數據;購買數據等。

2. 獲取數據

  • 文本文件:
  • read
    讀取文件中的全部數據,直到到達定義的size字節(jié)數上限內容字符串,所有行合并為一個字符串
  • readline讀取文件中的一行數據,直到到達定義的size字節(jié)數上限內容字符串
  • readlines讀取文件中的全部數據,直到到達定義的size字節(jié)數上限內容列表,每行數據作為列表中的一個對象
  • numpy.loadtxt從txt文本中讀取數據從文件中讀取的數組
  • numpy.load可以讀取Numpy專用的二進制數據文件從數據文件中讀取的數組、元組、字典等
  • numpy.fromfile可以讀取簡單的文本文件數據以及二進制數據從文件中讀取的數據
  • pandas.read_csv讀取csv文件DataFrame或TextParser
  • pandas.read_excel讀取excel文件DataFrame或TextParser
  • pandas.read_fwf讀取表格或固定寬度格式的文本行到數據框DataFrame或TextParser
  • pandas.read_table讀取通用分隔符分隔的數據文件到數據框DataFrame或TextParser
  • Excel:xlrd、xlwt、pyexcel-xls、xluntils等第三方庫
  • MySQL:sql語句
  • MongoDB:PyMongo提供了數據統(tǒng)計、分析和探索的基本方法
  • API:需要到特定平臺進行注冊,獲得密鑰等信息
  • 網頁:獲取網頁的源代碼后進行解析
  • 非結構化文本數據:側重于特定場景,通用性較差
  • 圖像:
  • PIL.Image.open:讀取圖像內容一個圖像文件對象
  • cv2.imread:讀取圖像內容一個圖像文件對象
  • Matplotlib.pylot.imshow:展示圖像展示一個圖像對象
  • 視頻:
  • cv2.VideoCapture:讀取視頻數據一個視頻對象
  • 語音:audioop、aifc、wav等庫,或調用API

03 數據預處理

1. 數據清洗

  • 缺失值:對于缺失值的處理思路是先通過一定方法找到缺失值,接著分析缺失值在整體樣本中的分布占比,以及缺失值是否具有明顯的無規(guī)律分布特征,然后考慮后續(xù)要使用的模型中是否能滿足缺失值的自動處理,最后決定采用哪種缺失值處理方法。
  • 丟棄(直接刪除帶有缺失值的行記錄或列字段)簡單明了;數據特征消減不適用場景:a數據集總體中存在大量的數據記錄不完整情況且比例較大;b帶有缺失值的數據記錄大量存在著明顯的數據分布規(guī)律或特征。
  • 補全(通過一定的方法將缺失的數據補上)更為常用常用補全的方法:a統(tǒng)計法,使用均值、眾數等補足;b模型法,根據已有字段預測缺失字段的值;c專家補全;d其他,例如隨機法、特殊值法、多重填補等。
  • 真值轉換法(將數據缺失作為數據分布分布規(guī)律的一部分,將變量的實際值和缺失值都作為輸入維度參與后續(xù)數據處理和模型計算中)認為不能輕易對缺失值隨意處理的情況例如:以性別字段,在無法進行補足且認為其有重要意義的情形下,進行真值轉換。轉換前為:性別(男、女、未知);轉換后為:性別_男(0或1),性別_女(0或1),性別_未知(0或1)
  • 不處理主要看后期數據分析和建模應用,很多模型對于缺失值有容忍度或靈活的處理方法常見能夠自動處理缺失值的模型有:KNN、決策樹和隨機森林、神經網絡、樸素貝葉斯等。
  • 異常值:分為“偽異?!保ㄓ蓸I(yè)務特定運營動作產生,正常反映業(yè)務狀態(tài)的異常)和“真異?!保陀^反映數據本身分布異常的個案);一般情況下,異常值會在預處理階段被剔除;無需拋棄異常值的情況:a異常值正常反映了業(yè)務運營結果;b異常檢測模型,即異常數據本身是目標數據的情況;c包容異常值的數據建模,即數據算法和模型對異常值不敏感。
  • 重復值:兩種情況a數據值完全相同的多條數據記錄;b數據主體相同但匹配到的唯一屬性值不同;一般情況下,通過去重方法處理重復值;不建議去重的情況:a重復記錄用于分析演變規(guī)律;b重復的記錄用于樣本不均衡處理;c重復的記錄用于檢測業(yè)務規(guī)則問題

2. 標志轉換

  • 分類數據和順序數據要參與模型計算,通常都會轉換為數值型數據。
  • 將非數值型數據轉換為數值型數據的最佳方法是:將所有分類或順序變量的值閾從一列多值的形態(tài)轉換為多列只包含真值的形態(tài),即真值轉換。

3. 數據降維

是否降維主要考慮因素:維度數量;建模輸出是否必須保留原始維度;對模型的計算效率與建模時效性的要求;是否要保留完整數據特征。

基于特征選擇:根據一定的規(guī)則和經驗,直接選取原有維度的一部分參與后續(xù)的計算和建模過程。其優(yōu)點是,在保留了原有維度特征的基礎上進行降維,既能滿足后續(xù)數據處理和建模的要求,又能保留維度原本的業(yè)務含義,便于業(yè)務理解和應用。

  • 經驗法:根據業(yè)務專家或數據專家的以往經驗、實際數據情況、業(yè)務理解程度等進行綜合考慮。
  • 測算法:通過不斷測試多種維度選擇參與計算,通過結果來反復驗證和調整,并最終找到最佳特征方案。
  • 基于統(tǒng)計分析的方法:通過相關性分析去除相關性較高的維度,或通過計算找到具有較高互信息的特征集
  • 機器學習算法:通過機器學習算法得到不同特征的特征值或權重,然后再根據權重來選擇較大的特征。

基于特征轉換:按照一定的數學變換方法,把高維數據映射到低維空間;產生新維度。

  • PCA(主成分分析):按照一定的數學變換方法,把給定的一組相關變量通過線性變換轉成另一組不相關的變量。
  • FA(因子分析):從變量群中提取公共因子
  • LDA(線性判別分析):將高位的模式樣本投影到最佳鑒別矢量空間,以達到抽取分類信息和壓縮特征空間維數的效果。
  • ICA(獨立成分分析):利用統(tǒng)計原理進行計算的方法,本質上是一個線性變換,它將數據或信號分離成統(tǒng)計獨立的非高斯的信號源的線性組合。

基于特征組合:實際上是將輸入特征與目標預測變量做擬合的過程;很多時候并不能減少特征的數量。

  • 基于單一特征離散化后的組合:先將連續(xù)型特征離散化,然后基于離散化后的特征組合成新的特征,例如RFM模型。
  • 基于單一特征的運算后的組合:對單一列基于不同條件下獲得的數據記錄做求和等計算,從而獲得新的特征。
  • 基于多個特征的運算后的組合:對多個單一特征直接做復合運算,從而形成新的特征。
  • 基于模型的特征最優(yōu)組合:在特定的優(yōu)化函數前提下做模型迭代計算,以達到滿足模型最優(yōu)的解,例如基于多項式的特征組合、基于GBDT的特征組合等。

4. 樣本分布不均

常見場景:異常檢測場景;客戶流失場景;罕見事件的分析;發(fā)生低頻率的事件。

  • 過抽樣和欠抽樣增加少數類樣本的數量或減少多數類樣本的數量最為常用
  • 正負樣本的懲罰權重少數樣本類權重高,多數樣本類權重低不需要對樣本進行額外處理,思路更加簡單和高效
  • 組合/集成方法每次訓練時使用全部少數類樣本和部分多數類樣本,最后使用組合方法產生分類預測。適合計算資源充足且對模型的時效性要求不高的情形
  • 特征選擇選擇具有顯著型的特征配合參與解決巖本不均衡問題可用于非監(jiān)督式方法

5. 樣本抽樣

  • 抽樣原因:數據計算資源不足;數據采集限制;時效性要求。
  • 方法:簡單隨機抽樣;等距抽樣;分層抽樣;整群抽樣。
  • 要求:數據抽樣要能反映運營背景;要能滿足數據分析和建模需求。

6. 共線性問題

檢驗共線性的指標:

  • 容忍度每個自變量作為因變量對其他自變量進行回歸建模時得到的殘差比例大小用1減得到的決定系數介于0與1之間,值越小說明這個自變量與其他自變量間存在共線性問題的可能性越大
  • 方差膨脹因子容忍度的倒數<10說明不存在多重共線性介于10到100說明存在較強的多重共線性≥100則存在嚴重共線性
  • 特征值即進行PAC如果存在多個維度的特征值等于0則可能有比較嚴重的共線性

常用方法:

  • 增大樣本量可消除由于數據量不足而出現(xiàn)的偶然共線性現(xiàn)象優(yōu)先考慮
  • 嶺回歸法通過放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價來獲得更實際和可靠性更強的回歸系數常用于存在較強共線性的回歸應用中
  • 逐步回歸法每次引入一個變量,如果原來引入的變量由于后來變量的引入變得不再顯著,則將其剔除,逐步得到最優(yōu)回歸方程
  • 主成分回歸基于主成分做回歸分析可以在不丟失重要數據的情況下解決共線性
  • 人工去除結合人工經驗需要對業(yè)務、數據的深入理解

7. 相關性理解

  • 相關性≠因果:相關性表示變量間是邏輯上的并列相關關系;因果聯(lián)系解釋為因為x1所以x2。
  • 相關系數:相關系數R的取值范圍是[-1,1],絕對值越大則相關性越大,正值表示正相關,負值表示負相關。

8. 標準化

目的:處理不同規(guī)模和量綱的數據,使其縮放到相同的數據區(qū)間和范圍,以減少規(guī)模、特征、分布差異對模型的影響。

  • Z-Score:y=(x-均值)/標準差適合大多數類型的數據;標準化后是均值為0,方差為1的正太分布;是一種中心化方法,不適于稀疏數據
  • Max-Min:y=(x-最小值)/(最大值-最小值) 數據落入[0,1]之間,能夠較好保持原有數據結構
  • MaxAbs:y=x/所在列最大值的絕對值數據落入[-1,1]之間,不破壞原有數據分布結構,可用于稀疏數據
  • RobustScaler針對離群點做標準化處理,對數據中心化和數據的縮放魯棒性有更強的參數控制

9. 離散化

  • 針對時間數據:離散化為分類數據(如上午、下午);離散化為順序數據(如周一、周二、周三);離散化為數值型數據。
  • 針對多值離散數據:需要考慮新的建模要求或業(yè)務邏輯的變更。
  • 針對連續(xù)數據:分位數法、距離區(qū)間法、頻率區(qū)間法、聚類法、卡方。
  • 針對連續(xù)數據的二值化:設定閾值。

04 分析與挖掘方法

1. 聚類分析

典型算法:K均值、DBSCAN、兩步聚類、BIRCH、譜聚類等

  • K均值對數據的異常點和異常量綱敏感,可選擇DBSCAN。
  • 聚類分析的結果提供了樣本集在非監(jiān)督模式下的類別劃分,這種劃分結果除了可以做群類別間的差異特征分析、群類別內的關鍵特征提取、樣本群劃分等分析功能外,還可以用于例如圖像壓縮、圖像分割、圖像理解、異常檢測、數據離散化等任務的中間過程。
  • 子空間聚類算法是高維數據空間中對傳統(tǒng)聚類算法的一種擴展,其思想是選取與給定簇密切相關的維,然后再對應的子空間進行聚類。

算法選擇:

  • 高維數據集選擇譜聚類;
  • 中小規(guī)模數據量選擇K均值;
  • 超大數據量時應該放棄K均值算法,可以選擇MiniBatchKMeans;
  • 數據集中有噪點選擇DBSCAN;
  • 譜聚類比K均值具有更高的分類準確度。

2. 回歸分析

  • 常用算法:線性回歸、二項式回歸、對數回歸、指數回歸、核SVM、嶺回歸、Lasso等。
  • 應用回歸模型時,注意識別和解決自變量間的共線性問題。
  • 算法選擇:多重共線性可選擇嶺回歸法;噪音較多時可選擇主成分回歸;高維度時可使用正則化回歸方法;需要同時驗證多個算法,并想從中選擇一個來做好的擬合,可以使用交叉驗證;注重模型的可解釋性時選擇簡單的線性回歸、指數回歸、對數回歸等;確認多個方法且不確定該如何取舍時可以將多個回歸模型做成集成或組合方法使用。

3. 分類分析

  • 常用算法:樸素貝葉斯、邏輯回歸、決策樹、隨機森林、支持向量機
  • 防止過擬合:使用更多數據;降維;使用正則化方法;使用組合方法。
  • 算法選擇:文本分類常使用樸素貝葉斯;訓練集較小時選擇樸素貝葉斯和支持向量機;訓練集較大時各算法準確度相近;關注時效性和易用性時不推薦支持向量機和神經網絡;重視準確率選擇支持向量機、GBDT、XGBooost等基于Boosting的集成方法;重視穩(wěn)定性和魯棒性選擇隨機森林、基于Boosting的集成方法;需要預測結果的概率信息選擇邏輯回歸;擔心離群點或數據不可分并且需要清晰的決策規(guī)則選擇決策樹。

4. 關聯(lián)分析

  • 常用算法:Apiori、FP-Growth、PrefixSpan、SPADE、AprioriAll、AprioriSome等。
  • 頻繁規(guī)則不一定是有效規(guī)則
  • 在關聯(lián)分析上,python遜色于R

5. 異常檢測分析

  • 常用方法:基于統(tǒng)計的異常檢測方法、基于距離的異常檢測方法、基于密度的離群檢測方法、基于偏移的異常點檢測方法、基于時間序列的異常點檢測方法。
  • 分析場景:異常訂單識別、風險客戶預警、黃牛識別、貸款風險識別、欺詐檢測、技術入侵等。

6. 時間序列分析

  • 常用算法:移動平均(MA)、指數平滑(ES)、差分自回歸移動平均模型(ARIMA)三大類。
  • 在商業(yè)環(huán)境復雜的企業(yè),時間序列很難發(fā)揮作用。
  • 時間序列預測的整合、橫向、縱向模型。

7. 路徑、漏斗、歸因和熱力圖分析

  • 漏斗分析:網站分析的基本方法,可以查看特定目標的完成和流失情況。其典型應用場景是分析站內流程。
  • 路徑分析:網站分析的基本方法,常用于分析不同頁面引流和前后路徑關系。
  • 歸因分析:又叫訂單轉化歸因或歸因模型,主要用于評估多個參與轉化的主體如何分配貢獻大小。
  • 熱力圖分析:網站分析的重要方法,主要作用是分析單個頁面內的點擊分布,是單頁面用戶體驗分析的重要途經,可分為基于鏈接的熱力圖和基于像素的熱力圖。

8. 其他忠告

  • 注意驗證數據質量
  • 不要忽視數據的落地性,要結合業(yè)務實際
  • 不要把數據陳列當作數據結論
  • 數據結論不要產生于單一指標
  • 數據分析不要預設價值立場,要秉持著客觀、公正的態(tài)度去對待基于數據的決策項目
  • 不要忽視數據于業(yè)務的需求沖突

05 會員數據化運營

1. 重要指標

會員整體指標:

  • 注冊會員數:根據注冊時間周期的不同,又細分為累積注冊會員數、新增注冊會員數等
  • 激活會員數:根據激活時間周期不同,又可分為累積激活會員數、新增激活會員數等;可延伸出會員激活率等相對轉化率指標
  • 購買會員數:根據購買時間周期不同,可細分為累積購買會員數、新增購買會員數等;可延伸出注冊-購買轉化率、激活-購買轉化率等相對轉化率指標

會員營銷指標:

  • 可營銷會員數:會員可營銷方式包括:手機號、郵箱、QQ號、微信等具有可識別并可接觸的信息點,具備這些信息中的任何一種便可形成可營銷會員
  • 營銷費用:一般包括營銷媒介費用、優(yōu)惠券費用和積分兌換費用
  • 營銷收入:通過會員營銷渠道和會員相關運營活動產生的收入
  • 用券會員/金額/訂單比例:會員營銷時大多數情況下都會使用優(yōu)惠券,這不僅時促銷銷售的一種方式,也是識別不同會員訂單來源的重要途經;除此以外還包括基于用券數據產生的用券用戶平均訂單金額、用券用戶復購率等先慣指標
  • 營銷費率:是會員營銷費用占營銷收入的比例,目的是監(jiān)督營銷費用的支出情況,確保其不超出計劃指標
  • 每注冊/訂單/會員收入:單位收入是評估收益效率的重要指標
  • 每注冊/訂單/會員成本:單位成本的考量是精細化業(yè)務動作的關鍵指標之一

會員活躍度指標:

  • 整體會員活躍度:對每個會員的活躍度數據加權求和
  • 每日/每周/每月活躍用戶數:在對應的時間周期內重復,即當有用戶多次完成事件時會在周期內只計算一次

會員價值度指標:

  • 會員價值分群:并不是真正的指標,而是給用戶打標簽,用來顯示用戶的狀態(tài)、層次和價值區(qū)分等
  • 復購率:一定周期內購買多次的會員比例
  • 消費頻次:可有效分析用戶對于企業(yè)的消費黏性
  • 最近一次購買時間:可以作為會員消費價值黏性的估計因素
  • 最近一次購買金額:可用于衡量用戶的消費能力

會員終生價值指標:

  • 會員生命周期價值/訂單量/平均訂單價值:與任何時間周期無關,衡量的是用戶完整生命周期內的價值,能從整體上獲得會員的宏觀狀態(tài)
  • 會員生命周期轉化率:指會員在完整生命周期內完成的訂單和到達網站、企業(yè)、門店的次數比例,衡量了用戶是否具有較高的轉化率
  • 會員生命周期剩余價值:用來預測用戶在其生命周期內還能產生多少價值,可細分出很多相關指標,例如預期未來30天的會員轉化率、預期生命周期剩余訂單價值、預期7天內下單數量等

會員異動指標:

  • 會員流失率:需要關注會員流失率的數值、走向兩個方面
  • 會員異動比:指新增會員與流失會員的比

2. 應用場景

會員營銷:

  • 以信息化的方式簡歷基于會員的客戶關系管理系統(tǒng),促進所有會員數據的信息化
  • 通過特定方法將普通用戶擴展為企業(yè)會員,并提高新會員留存率
  • 基于用戶歷史消費記錄,挖掘出用戶潛在消費需求及消費熱點
  • 基于歷史數據,為會員營銷活動提供策略指導和建議,促進精準營銷活動的開展
  • 從會員營銷結果中尋找異常訂單或轉化,作為識別黃?;騐IP客戶的參考
  • 挖掘會員傳播關系,找到口碑傳播效應的關鍵節(jié)點

會員關懷:

  • 為預警時間設置閾值,自動觸發(fā)應急處理機制
  • 分析會員行為,為會員提供個性化、精準化、差異化服務
  • 通過會員喜好分析,提高客戶忠誠度、活躍度和黏性
  • 通過會員分析,預防會員流失,并找到挽回已經流失會員的方法
  • 基于會員群體行為,更好地劃分會員群體屬性并挖掘群體性特征
  • 基于群體用戶和內容相似度,發(fā)現(xiàn)有價值的會員互動方式
  • 基于會員生命周期的關懷管理,促進用戶終生價值最大化

3. 分析模型

  • 會員細分模型:將整體會員劃分為不同的細分群體或類別,然后基于細分群體做管理、營銷和關懷。
  • 基于屬性的方法:常用的細分屬性包括:會員地域、產品類別、會員類別、會員性別、會員消費等級、會員等級等
  • ABC分類法:根據事物的主要特征做分類排列,強調分清主次
  • 聚類法:常用的非監(jiān)督式方法
  • 會員活躍度模型:RFE模型是根據會員最近一次訪問時間R、訪問頻率F和頁面互動度F計算得到RFE得分,常用來做用戶活躍分群或價值區(qū)分,可用于內容型(如論壇、新聞、資訊等)企業(yè)的會員分析。
  • 會員價值度模型:RFM模型是根據會員最近一次購買時間R、購買頻率和購買金額M計算得到RFM得分,常用來做客戶分群或價值區(qū)分,該模型常用于電子商務(即交易類)企業(yè)的會員分析。
  • 會員流失預測模型:其實現(xiàn)方法屬于分類算法,常用算法包括邏輯回歸、支持向量機、隨機森林等。
  • 會員特征分析模型:主要用于兩種業(yè)務場景,一種是在沒有任何前期經驗或特定目標下觸發(fā),希望通過整體特征分析了解會員全貌,常用的實現(xiàn)方法有聚類、統(tǒng)計分析;另一種是有明確的業(yè)務方向,希望找到能達到事件目標的會員特征,用于做進一步的會員運營,常用方法有分類、關聯(lián)、異常檢測。
  • 營銷響應預測模型:是針對營銷活動展開的,通常在做會員營銷活動之前,通過營銷響應預測模型分析,找到可能響應活動的會員特征及整體響應的用戶比例、數量和可能帶來的銷售額。其實施一般采用分類算法,常用算法包括邏輯回歸、支持向量機、隨機森林等。

4. 小技巧

  • 使用留存分析做新用戶質量分析時,要區(qū)分應用不同的的留存周期,注意觀察和分析衰減比率以及運營活動對于留存的影響。
  • 使用AARRR做App用戶生命周期分析:AARRR是Acquisition、Activation、Retention、Revenue、Refer(獲取用戶、提高活躍度、提高留存率、獲取收入、自傳播)的縮寫。
  • 借助動態(tài)數據流關注會員狀態(tài)的輪轉,基于動態(tài)的時間周期,可以有效分析用戶的狀態(tài)輪轉變化,可以從整個周期的視角發(fā)現(xiàn)會員狀態(tài)的全貌。
  • 使用協(xié)同過濾算法為新會員分析推送個性化信息,協(xié)同過濾主要解決的問題是當客戶進入某個領域后,發(fā)現(xiàn)他可能感興趣的東西,然后以用戶的興趣點為出發(fā)點向其推薦內容,以此來提高用戶體驗、用戶交互頻率提高、訂單轉化效果、銷售利潤提升等,當前主要用于電子商務網站、興趣部落網站、知識性網站、話題型網站、社交性網站的個性化項目推薦。

06 商品數據化運營

1. 重要指標

銷售指標:

  • 訂單量/商品銷售量:訂單量用來衡量唯一訂單的數量,商品銷售量用來衡量商品的總銷量
  • 訂單金額/商品銷售額:兩者都是商品總銷售收入的評估指標,前者側重于用戶實際付款,包含運費、優(yōu)惠等,后者側重于總收入,不包含任何其他費用或優(yōu)惠金額
  • 每訂單金額/客單價/件單價:用評估單位對象的價值產出,分別側重于訂單個體、用戶個體和商品個體
  • 訂單轉化率:是電子商務網站最重要的評估指標之一,計算方法是:訂單轉化率=產生訂單的訪問量/總訪問量 或 產生訂單的UV/總UV量
  • 支付轉化率:針對先款后貨客戶的轉化評估指標
  • 有效訂單量/有效訂單金額/有效商品銷售量/有效商品銷售額:可延伸出有效件單價、有效訂單狀態(tài)率、有效客單價等指標
  • 訂單有效率/廢單率:兩者和為1
  • 毛利/毛利率:兩者綜合反映了商品的盈利規(guī)模和盈利能力

促銷活動指標:

  • 每訂單成本/每有效訂單成本:費用/(有效)訂單量
  • 每優(yōu)惠券收益/每積分兌換收益:每優(yōu)惠券收益=優(yōu)惠券帶來的訂單成交金額/優(yōu)惠券數量;實際中兩者可能出現(xiàn)訂單貢獻重復計算的情況
  • 活動直接收入/活動間接收入:用戶購買促銷商品和非促銷商品的收入情況
  • 活動收入貢獻:活動收入貢獻占比=(活動直接收入+活動間接收入)/全站訂單成交金額
  • 活動拉升比例:可以指銷量拉升、銷售額拉升、訂單量拉升等;活動拉升比例=(活動期間收入/非活動期間收入)-1

供應鏈指標:

  • 庫存可用天數:庫存可用天數=庫存商品數量/期內每日商品銷售數量;過長的可用天數可能意味著商品滯銷
  • 庫存量:企業(yè)通常會定義安全庫存量、最低庫存量和最高庫存量
  • 庫齡:一般按照先進先出、先進先銷原則出庫,同一個商品的庫齡要按照其相應進貨批次的時間計算
  • 滯銷金額:可以衍生出滯銷金額占比、滯銷SKU占比、滯銷商品銷量占比等指標
  • 缺貨率:缺貨率=缺貨商品數量/用戶訂貨數量;可衍生出缺貨金額、缺貨商品數量等指標
  • 殘次數量/殘次金額/殘次占比:指由于商品庫存、搬運、裝卸等因素造成的商品外包裝損壞、產品損壞等影響商品二次銷售的情況
  • 庫存周轉天數:庫存周轉天數=360/庫存周轉率,其中庫存周轉率=年銷售商品金額/年平均庫存商品金額

2. 應用場景

  • 商品數據化運營的主要場景包括銷售預測、庫存分析、市場分析和促銷分析
  • 銷售預測主要應用的是銷售預測場景,通過對歷史數據的分析,預測未來一段時間內企業(yè)可能產生的銷售額、銷售量或訂單金額等。
  • 庫存分析是商品動銷分析的關鍵點之一,也是商品銷售的基礎和前提,其關鍵是找到脫銷和滯銷的平衡點。
  • 市場分析:主要應用于對商品所在市場的規(guī)模、特點、容量、性質、趨勢等方面的宏觀分析,既可以側重于單個商品,也可以側重于品牌、品類等更高聚合的維度,并且能從宏觀角度評估所有商品本身及所處市場的優(yōu)劣得失。
  • 促銷分析:是商品數據化運營應用最為廣泛的場景之一,其涵蓋的策略制定、實時監(jiān)測、后期分析等各個場景都是商品運營值得關注的環(huán)節(jié),也是數據產生可量化價值的主要場景。

3. 分析模型

  • 商品價格敏感度模型:指通過研究找到用戶對于價格是否敏感以及敏感程度的價格杠桿,輔助于銷售定價、促銷活動的折扣方式、參考價格、價格變動幅度等方面的參考??梢酝ㄟ^調研問卷法、數據建模法實現(xiàn)。
  • 新產品市場定位模型:用于企業(yè)新生產或策劃一款產品時,需要根據市場上現(xiàn)有的競爭對手產品情況做定位分析??赏ㄟ^基于相似度的方法實現(xiàn)。
  • 銷售預測模型:根據歷史的銷售數據來預測未來可能產生的銷售情況,常用于促銷活動前的費用申請、目標制定、活動策劃等的輔助支持??赏ㄟ^時間序列、回歸和分類方法實現(xiàn)。
  • 商品關聯(lián)銷售模型:主要用來解決哪些商品可以一起售賣或不能一起打包組合的問題。其實現(xiàn)方式時關聯(lián)類算法,主要實現(xiàn)的是基于一次訂單內的交叉銷售及基于時間序列的關聯(lián)銷售。
  • 異常訂單檢測:用來識別在訂單(尤其是促銷活動中的訂單)中的異常狀態(tài),目的是找到非普通用戶的訂單記錄,例如黃牛訂單、惡意訂單、商家刷單等。其實現(xiàn)主要是基于監(jiān)督式分類算法和基于非監(jiān)督式的算法這兩類方法。
  • 商品規(guī)劃的最優(yōu)組合:在一定限制條件下考慮通過何種組合策略來實現(xiàn)最大或最小目標??赏ㄟ^線性規(guī)劃來實現(xiàn)。

4. 小技巧

  • 層次分析法是一種將定性分析和定量分析相結合的方法,非常方便且實用,但其缺點在于不能使用太多的決策變量,且決策變量間必須具有相對獨立的特征。
  • 一般情況下,企業(yè)做促銷活動都會同時產生銷售額提升的現(xiàn)象,但不能看到銷售提升就盲目認為是促銷活動導致的,需要通過多種假設檢驗的方式做顯著性分析。
  • 使用波士頓矩陣做商品結構分析能夠將不同商品或業(yè)務放到一個平面做對比,并且基于公司的整體出發(fā)來考慮資源間的最優(yōu)配置和調整方法。
  • 在做商品數據化運營分析的過程中,在沒有成型可用的思路之前,可以考慮從4P(產品、價格、渠道、促銷)的角度出發(fā)去搭建商品運營分析的基本思路,這是非常有效的初始化打破僵局的方法。

07 流量數據化運營

  • 流量數據化運營要解決的本質問題是如何通過數據獲得更多流量以及有效流量,然后完成最大化的營銷轉化目標。
  • 流量分析工具:Adobe Analytics、Webtrekk Suite、Webtrends、Google Analytics、IBM Coremetrics、百度統(tǒng)計、Flurry、友盟
  • 流量采集分析系統(tǒng)的工作機制包括數據采集、數據處理和數據應用3個部分。

1. 重要指標

站外營銷推廣指標:

  • 曝光量:廣告曝光是衡量廣告效果的初級指標,通常用來衡量展示類廣告
  • 點擊量:指站外廣告被用戶點擊的次數
  • 點擊率:點擊率=點擊量/曝光量;反映了用戶對當前廣告的喜好程度,也反映了所投放的媒介用戶質量與投放廣告的匹配度
  • CPM:每千人成本
  • CPD:每天展示成本
  • CPC:每次點擊成本
  • 每UV成本:指點擊站外廣告到達網站后,每個UV的成本
  • 每訪問成本:指點擊站外廣告到達網站后,每個訪問的成本
  • ROI:指投入費用所能帶來的收益比例
  • 每點擊/UV/訪問/目標轉化收益:不同單位的收益

網站流量質量指標:

  • 訪問深度:訪問深度=PV/訪問量
  • 停留時間:指用戶在網站或頁面停留時間的長短
  • 跳出/跳出率:跳出率=跳出的訪問/落地頁訪問
  • 退出/退出率:退出率=頁面退出的訪問/退出頁面的訪問
  • 產品頁轉化率:產品頁轉化率=產品頁訪問量/總訪問量
  • 加入購物車轉化率:加入購物車轉化率=加入購物車訪問量/總訪問量
  • 結算轉化率:結算轉化率=結算訪問量/總訪問量
  • 下載轉化率:下載轉化率=下載訪問量/總訪問量
  • 注冊轉化率:注冊轉化率=注冊會員量/總UV數
  • 購物車內轉化率:購物車內轉化率=提交訂單的訪問量/加入購物車的訪問量

網站流量數量指標:

  • 到達率:到達率=到達量/點擊量
  • UV:獨立訪客;只與時間有關
  • Visit:訪問量、訪問次數、會話次數
  • PV:頁面瀏覽量
  • 新訪問占比:評估站外廣告投放效果的重要指標,尤其對于吸引新用戶關注為目的的渠道具有重要意義
  • 實例數:衡量站內自定義對象的觸發(fā)次數

2. 應用場景

  • 流量采購:指通過多種媒介和廣告渠道采集或購買流量,從而實現(xiàn)流量目標。在流量采購方面,數據主要支撐流量預測、效果評估、效果分析、作弊檢測這4個方面的內容。
  • 流量分發(fā):指如何對流量進行內部分配,通常這部分工作由網站運營中心完成。運營中心通過內部廣告、活動引導、自然引導、個性化推薦4種方式進行流量分發(fā)。

3. 分析模型

  • 流量波動檢測:該模型可以對具有相對穩(wěn)定或具有一定時間規(guī)律特征的數據做檢測分析。
  • 渠道特征聚類:當企業(yè)投放眾多廣告媒體時,第一次對如此多的媒體多特征分析可能無從下手,此時可以考慮對廣告渠道特征進行聚類,然后從幾類具有比較顯著的群體上再深入挖掘。
  • 廣告整合傳播模型:指所有企業(yè)的廣告和傳播活動都以統(tǒng)一的策略作為指導,通過一定方式的組合來實現(xiàn)傳播效果的最大化目標。
  • 流量預測模型:通過廣告流量預測模型可以基于現(xiàn)有的流量及廣告費用水平等因素,預測在一定條件下可以產生多少流量。

4. 小技巧

  • 通過關鍵指標和適當圖形展示分析結果
  • 關注趨勢、重要事件和潛在因素是日常報告的核心
  • 通過跨屏追蹤解決用戶跨設備和瀏覽器的訪問行為
  • 基于時間序列的用戶群體過濾能應用到很多具有明顯事件先后順序的分析場景中

08 內容數據化運營

1. 主要指標

內容質量指標:

  • 原創(chuàng)度:主要通過與網站本身內容和互聯(lián)網已有內容做對比

SEO類指標:

  • 收錄數量/比例:指所有內容中能被搜索引擎檢索并加入到期內容索引中的數量
  • 收錄速度:新內容被收錄得越快,越能盡早吸引有相關興趣的讀者關注
  • 關鍵字排名:指在搜索引擎中搜索某個文章相關的關鍵字時,自身網站在整個搜索引擎中的排名。
  • 點擊量和點擊率:衡量用戶點擊程度和信息匹配程度的重要指標

內容流量指標:參考流量運營指標

內容互動指標:

  • 收藏量:相關指標有人均收藏量、每內容收藏率等
  • 點贊量:相關指標有點贊率、平均評分、最高(低)評分等
  • 評論量
  • 傳播量/傳播率:例如轉發(fā)、分享等
  • 二次轉播率:二次傳播是產生巨大傳播效應的基礎
  • 目標轉化目標:由網站目標決定

2. 應用場景

  • 內容采集:內容運營的起始流程
  • 內容創(chuàng)作:是自身生產內容的過程,主要涉及內容的主題、標題、排版、插圖等內容本身,也包括基于SEO相關策略的內容優(yōu)化
  • 內容分發(fā):基于一定的分發(fā)策略將內容推送給特定目標對象的過程,其核心是如何讓用戶更高效、精準地觸達內容
  • 內容管理:指對內容相關信息的審核、校驗、識別、分析等,是管控和治理等日常性操作事物的統(tǒng)稱

3. 分析模型

  • 情感分析模型:用于分析特定對象對相關屬性的觀點、態(tài)度、情緒、立場以及其他主觀感情的技術,主要應用有競爭情報、輿情監(jiān)測、客戶傾向分析、話題監(jiān)督、口碑分析等。常用方法有樸素貝葉斯、KNN、SVM等監(jiān)督學習算法、非負矩陣分解等。
  • 搜索優(yōu)化模型:可以幫助用戶更快地找到感興趣的潛在內容,可用于搜索過程中的聯(lián)想功能、相關的結果提示和二次搜索建議。常用關聯(lián)模型實現(xiàn)。
  • 文章關鍵字模型:生成簡短的關于文檔內容的提示性信息,節(jié)省用戶大量的瀏覽時間。常用方法有詞頻統(tǒng)計、TF-IDF等
  • 主題模型:提煉文字中隱含主題的一種建模方法,常用的主題模型有:LDA、pLDA、基于LDA的衍生模型等。
  • 垃圾信息監(jiān)測模型:用于檢測特定對象是否包含垃圾信息,可用分類模型來實現(xiàn)。

4. 小技巧

  • A/B測試包括雙變量測試和多變量測試,是網站優(yōu)化的基本方法,常見于高級網站分析系統(tǒng)。
  • 可用通過屏幕瀏覽占比了解用戶在頁面上看到了多少內容
  • 實現(xiàn)個性化內容運營需要打通數據分析系統(tǒng)和內容管理系統(tǒng)
  • 目前針對App的個性化推薦和運營主要采用兩種形式,一種是通過調用網站端的挖掘結果,一種是只針對App上的簡單場景進行應用。

09 數據化運營分析的終極秘籍

1. 撰寫出彩的數據分析報告的5個建議

  • 具有完整的報告結構;
  • 有精致的頁面版式;
  • 具有漂亮的可視化圖形;
  • 突出報告的關鍵信息;
  • 用報告對象習慣的方式撰寫報告

2. 數據化運營支持的4種擴展方式

  • 數據API
  • 數據模型
  • 數據產品
  • 運營產品

3. 提升數據化運營價值度的5種途經

  • 數據源(不只有結構化數據)
  • 自動化(簡歷自動工作機制)
  • 未卜先知(建立智能預警模型)
  • 智能化(向商業(yè)智能和人工智能的方向走)
  • 場景化(將數據嵌入運營環(huán)節(jié)之中)

小結:學習感受

這本書很適合數據分析初學者使用,不僅有詳細的理論內容,而且配有豐富的案例分析。這本書中的很多知識點很多很細,而且很多是作者的經驗總結,記住它們不是主要目的,只有真正通過實踐和理解才能領悟??催^之后,對數據化運營會有一個全面的認識,是一本值得反復閱讀學習的好書。

本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
做數據分析,不吃透漏斗模型就別混了
看過這篇文章,讀懂數據分析
10000字全流程講解完整數據分析
從 0-1 構建指標體系
電子商務數據分析三年工作總結:無細分,毋寧死 | 36大數據
數據分析(二):運營模型篇
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服