AI:人工智能領(lǐng)域具體應(yīng)用場景案例介紹之以領(lǐng)域劃分(CV領(lǐng)域/DS領(lǐng)域/NLP領(lǐng)域/金融領(lǐng)域/爬蟲領(lǐng)域)、以項目劃分(AI推薦/AI推斷/AI法律咨詢/AI挖掘)目錄來理解技術(shù)交互流程
人認知世界的開始就是從認識數(shù)字開始的,深度學(xué)習(xí)也一樣,數(shù)字識別是深度學(xué)習(xí)的一個很好的切入口,是一個非常經(jīng)典的原型問題,通過對手寫數(shù)字識別功能的實現(xiàn),可以幫助我們后續(xù)對神經(jīng)網(wǎng)絡(luò)的理解和應(yīng)用。選取手寫數(shù)字識別的主要原因是手寫數(shù)字具有一定的挑戰(zhàn)性,要求對編程能力及神經(jīng)網(wǎng)絡(luò)思維能力有一定的要求,但同時手寫數(shù)字問題的復(fù)雜度不高,不需要大量的運算,而且手寫數(shù)字也可以作為其它技術(shù)的一個基礎(chǔ),所以以手寫數(shù)字識別為基礎(chǔ),貫穿始終,從而理解深度學(xué)習(xí)相關(guān)的應(yīng)用知識。
使用深度學(xué)習(xí)框架從零開始完成人臉檢測的核心技術(shù)圖像類別識別的操作,從數(shù)據(jù)預(yù)處理開始一步步構(gòu)建網(wǎng)絡(luò)模型并展開分析與評估,方便大家快速動手進行項目實踐!識別上千種人靚,返回層次化結(jié)構(gòu)的每個人的標簽。
本項目基于卷積神經(jīng)網(wǎng)在訓(xùn)練過程中學(xué)習(xí)出對應(yīng)的『二值檢索向量』,對全部圖先做了一個分桶操作,每次檢索的時候只取本桶和臨近桶的圖片作比對,而不是在全域做比對,使用這樣的方式提高檢索速度,使用Tensorflow框架建立基于ImageNet的卷積神經(jīng)網(wǎng)絡(luò),并完成模型訓(xùn)練以及驗證。
數(shù)據(jù)挖掘相關(guān)算法(關(guān)聯(lián)規(guī)則、Aprior算法)
梯度下降法(英語:Gradient?descent)是一個一階最優(yōu)化算法,通常也稱為最速下降法。?要使用梯度下降法找到一個函數(shù)的局部極小值,必須向函數(shù)上當前點對應(yīng)梯度(或者是近似梯度)的反方向的規(guī)定步長距離點進行迭代搜索。如果相反地向梯度正方向迭代進行搜索,則會接近函數(shù)的局部極大值點;這個過程則被稱為梯度上升法。
回歸算法是業(yè)界比較常用的一種機器學(xué)習(xí)算法,通過應(yīng)用于各種不同的業(yè)務(wù)場景,是一種成熟而穩(wěn)定的算法種類;TensorFlow是一種常用于深度學(xué)習(xí)相關(guān)領(lǐng)域的算法工具;隨著深度學(xué)習(xí)熱度的高漲,TensorFlow的使用也會越來越多,從而使用TensorFlow來實現(xiàn)一個不存在的算法,會加深對TensorFlow的理解和使用;基于TensorFlow的回歸算法的實現(xiàn)有助于后續(xù)的TensorFlow框架的理解和應(yīng)用,并可以促進深度學(xué)習(xí)相關(guān)知識的掌握。
技術(shù)可以改變癌癥患者的命運嗎,對于患有乳腺癌患者來說,復(fù)發(fā)還是痊愈影響這患者的生命,那么怎么來預(yù)測患者的患病結(jié)果呢,機器學(xué)習(xí)算法可以幫助我們解決這一難題,本項目應(yīng)用機器學(xué)習(xí)logistic回歸模型,來預(yù)測乳腺癌患者復(fù)發(fā)還是正常,有效的預(yù)測出醫(yī)學(xué)難題。
隨著信息科技的快速發(fā)展,計算機中的經(jīng)典算法在葡萄酒產(chǎn)業(yè)中得到了廣泛的研究與應(yīng)用。其中機器學(xué)習(xí)算法的特點是運用了人工智能技術(shù),在大量的樣本集訓(xùn)練和學(xué)習(xí)后可以自動地找出運算所需要的參數(shù)和模型。
點擊率預(yù)估是廣告技術(shù)的核心算法之一,它是很多廣告算法工程師喜愛的戰(zhàn)場。廣告的價值就在于宣傳效果,點擊率是其中最直接的考核方式之一,點擊率越大,證明廣告的潛在客戶越多,價值就越大,因此才會出現(xiàn)了刷點擊率的工具和技術(shù)。通過對于點擊量的評估,完成對于潛在用戶的價值挖掘。
郵件主要可以分為有效郵件和垃圾郵件兩大類,有效郵件指的郵件接收者有意義的郵件,而垃圾郵件轉(zhuǎn)指那些沒有任何意義的郵件,其內(nèi)容主要包含賺錢信息、成人廣告、商業(yè)或者個人網(wǎng)站廣告、電子雜志等,其中垃圾郵件又可以發(fā)為良性垃圾郵件和惡性垃圾郵件,良性垃圾郵件指的就是對收件人影響不大的信息郵件,而惡性垃圾郵件指具有破壞性的電子郵件,比如包含病毒、木馬等惡意程序的郵件。垃圾郵件過濾主要使用使用機器學(xué)習(xí)、深度學(xué)習(xí)等相關(guān)算法,比如貝葉斯算法、CNN等,識別出所接收到的郵件中那些是垃圾郵件。
時間序列分析(Time?Series?Analysis)是一種動態(tài)數(shù)據(jù)處理的統(tǒng)計方法,主要基于隨機過程理論和數(shù)理統(tǒng)計方法,研究隨機數(shù)據(jù)序列所遵從的統(tǒng)計規(guī)律以便用于解決實際問題。主要包括自相關(guān)分析等一般的統(tǒng)計分析方法,構(gòu)建模型從而進行業(yè)務(wù)推斷。經(jīng)典的統(tǒng)計分析是假定數(shù)據(jù)序列具有獨立性,而時間序列分析則側(cè)重于研究數(shù)據(jù)樣本序列之間的依賴關(guān)系。時間序列預(yù)測一般反應(yīng)了三種實際變化規(guī)律:趨勢變化、周期性變化和隨機性變化。時間序列預(yù)測常應(yīng)用于國民經(jīng)濟宏觀控制、企業(yè)經(jīng)營管理、市場潛力量預(yù)測、天氣預(yù)報、水文預(yù)報等方面,是應(yīng)用于金融行業(yè)的一種核心算法之一。
?使用python爬蟲scrapy框架,對于智聯(lián)招聘職位進行抓取,處理下一頁機制,抓取職位名稱、公司名稱、公司地點等職位數(shù)據(jù),并將數(shù)據(jù)通過Pipeline管道對數(shù)據(jù)進行數(shù)據(jù)去重,數(shù)據(jù)清洗,數(shù)據(jù)轉(zhuǎn)換,數(shù)據(jù)存儲。數(shù)據(jù)存儲在Mysql數(shù)據(jù)庫中,并將數(shù)據(jù)數(shù)值化,形成多表關(guān)聯(lián),后期使用Echarts可視化前端圖表,完成數(shù)據(jù)炫酷展示。
聊天機器人/智能客服是一個用來模擬人類對話或者聊天的一個系統(tǒng),利用深度學(xué)習(xí)和機器學(xué)習(xí)等NLP相關(guān)算法構(gòu)建出問題和答案之間的匹配模型,然后可以將其應(yīng)用到客服等需要在線服務(wù)的行業(yè)領(lǐng)域中,聊天機器人可以降低公司客服成本,還能夠提高客戶的體驗友好性。
在一個完整的聊天機器人實現(xiàn)過程中,主要包含了一些核心技術(shù),包括但不限于:爬蟲技術(shù)、機器學(xué)習(xí)算法、深度學(xué)習(xí)算法、NLP領(lǐng)域相關(guān)算法。通過實現(xiàn)一個聊天機器人可以幫助我們隊AI整體知識的一個掌握。
機器人寫詩歌/小說是一種基于NLP自然語言相關(guān)技術(shù)的一種應(yīng)用,在實現(xiàn)過程中可以基于機器學(xué)習(xí)相關(guān)算法或者深度學(xué)習(xí)相關(guān)算法來進行小說/詩歌構(gòu)建過程。人工智能的一個終極目標就是讓機器人能夠像人類一樣理解文字,并運用文字進行創(chuàng)作,而這個目標大致上主要分為兩個部分,也就是自然語言理解和自然語言生成,其中現(xiàn)階段的主要自然語言生成的運用,自然語言生成主要有兩種不同的方式,分別為基于規(guī)則和基于統(tǒng)計,基于規(guī)則是指首先了解詞性及語法等規(guī)則,再依據(jù)這樣的規(guī)則寫出文章;而基于統(tǒng)計的本質(zhì)是根據(jù)先前的字句和統(tǒng)計的結(jié)果,進而判斷下一個子的生成,例如馬爾科夫模型就是一種常用的基于統(tǒng)計的方法。
機器翻譯又稱自動翻譯,是指利用計算機將一種自然語言轉(zhuǎn)換為另外一種自然語言的過程,機器翻譯是人工智能的終極目標之一,具有很高的研究價值,同時機器翻譯也具有比較重要的實用價值,機器翻譯技術(shù)在促進政治、經(jīng)濟、文化交流等方面起到了越來越重要的作用;機器翻譯主要分為以下三個過程:原文分析、原文譯文轉(zhuǎn)換和譯文生成;機器翻譯的方式有很多種,但是隨著深度學(xué)習(xí)研究取得比較大的進展,基于人工網(wǎng)絡(luò)的機器翻譯也逐漸興起,特別是基于長短時記憶(LSTM)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RDD)的應(yīng)用,為機器翻譯添了一把火。
? ? ? ?隨著現(xiàn)代電商的深入人心,基于用戶行為(瀏覽、收藏、購物)分析尤為重要。而數(shù)據(jù)挖掘就是識別出巨量數(shù)據(jù)中有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。本階段主要從基于內(nèi)容的推薦、協(xié)同過濾、SVD、基于知識的推薦以及混合推薦算法等講解,并結(jié)合音樂推薦、隱因子模型推薦等項目讓大家有更深入的學(xué)習(xí)了解。
購物籃分析(Market?Basket?Analysis)即非常有名的啤酒尿布故事的一個反應(yīng),是通過對購物籃中的商品信息進行分析研究,得出顧客的購買行為,主要目的是找出什么樣的物品會經(jīng)常出現(xiàn)在一起,也就是那些商品之間是有很大的關(guān)聯(lián)性的。通過購物籃分析挖掘出來的信息可以用于指導(dǎo)交叉銷售、追加銷售、商品促銷、顧客忠誠度管理、庫存管理和折扣計劃等業(yè)務(wù);購物籃分析的最常用應(yīng)用場景是電商行業(yè),但除此之外,該算法還被應(yīng)用于信用卡商城、電信與金融服務(wù)業(yè)、保險業(yè)以及醫(yī)療行業(yè)等。
音樂推薦系統(tǒng)就是利用音樂網(wǎng)站上的音樂信息,向用戶提供音樂信息或者建議,幫助用戶決定應(yīng)該聽什么歌曲。而個人化推薦則是基于音樂信息及用戶的興趣特征、聽歌歷史行為,向用戶推薦用戶可能會感興趣的音樂或者歌手。推薦算法主要分為以下幾種:基于內(nèi)容的推薦、協(xié)同過濾推薦、基于關(guān)聯(lián)規(guī)則推薦、基于效用推薦、基于知識推薦等;推薦系統(tǒng)常用于各個互聯(lián)網(wǎng)行業(yè)中,比如音樂、電商、旅游、金融等。
目前比較火的互聯(lián)網(wǎng)金融領(lǐng)域,實質(zhì)是小額信貸,小額信貸風(fēng)險管理,本質(zhì)上是事前對風(fēng)險的主動把控,盡可能預(yù)測和防范可能出現(xiàn)的風(fēng)險。本項目應(yīng)用GBDT、Randomforest等機器學(xué)習(xí)算法做信貸反欺詐模型,通過數(shù)據(jù)挖掘技術(shù),機器學(xué)習(xí)模型對用戶進行模型化綜合度量,確定一個合理的風(fēng)險范圍,使風(fēng)險和盈利達到一個平衡的狀態(tài)
?
抓取豆瓣電影TOP250,得到電影名、電影介紹、評分、評論人數(shù)、經(jīng)典的話等信息,后期為了防止爬蟲被豆瓣Ban掉,增加了一些隨機延遲、偽裝瀏覽器請求頭,瀏覽器代理等,最終數(shù)據(jù)存儲在Mongodb。
?1.教務(wù)管理系統(tǒng)框架講解
?2.系統(tǒng)業(yè)務(wù)邏輯介紹
?1.明確數(shù)據(jù)需求
?2.大數(shù)據(jù)分析過程
?3.分析難點和解決方案
?4.大數(shù)據(jù)相關(guān)技術(shù)選型
?1.Hadoop分布式集群配置
?2.ZooKeeper高可用
?3.SQOOP數(shù)據(jù)轉(zhuǎn)移
?4.ETL數(shù)據(jù)清洗
?5.HIVE數(shù)據(jù)分析
?6.HBase數(shù)據(jù)存儲
?1.業(yè)務(wù)數(shù)據(jù)分析指標設(shè)定
?2.操作MapReduce分而治之
?3.使用Hive進行數(shù)據(jù)整合抽離
?4.使用HBase存儲非結(jié)構(gòu)話數(shù)據(jù)
?1.可視化技術(shù)選型
?2.Echarts代碼展示炫酷視圖
?3.使用Tableau進行數(shù)據(jù)可視化展示
?1)?開發(fā)環(huán)境的安裝配置
?2)?表與數(shù)據(jù)
?3)?LARAVEL的快速開發(fā)實踐
?4)?批量創(chuàng)建模型
?5)?萬能控制器與表配置
?6)?統(tǒng)一視圖的創(chuàng)建
?1)?定義數(shù)據(jù)需求
?2)?分析計算過程
?3)?分析難點和解決方案
?4)?大數(shù)據(jù)技術(shù)選型
?1)?分布式環(huán)境的模擬建立
?2)?網(wǎng)絡(luò)環(huán)境的調(diào)通
?3)?身份驗證與集群控制
?4)?Hadoop環(huán)境搭建和要點說明
?5)?MapReduce與Yarn的搭建和說明
?1)?MapReduce腳本編寫
?2)?拆解數(shù)據(jù)需求
?3)?Map邏輯詳寫
?4)?Reduce邏輯詳寫
?5)?結(jié)果整理與輸出
?1)?可視化需求和技術(shù)選型
?2)?展示頁面的快速鋪設(shè)
?3)?可視化JS上手
?4)?使用可視化JS展示結(jié)果
?1.底層業(yè)務(wù)實現(xiàn)框架講解
?2.功能模塊講解
?1.總體架構(gòu)分析
?2.數(shù)據(jù)流向
?3.各技術(shù)選型承載作用
?4.部署方案
?1.?原始數(shù)據(jù)處理
?2.?ETL數(shù)據(jù)導(dǎo)入
?3.?MR數(shù)據(jù)計算
?4.?Hive數(shù)據(jù)分析
?1.采用Highcharts插件展示客戶偏好曲線圖
?2.使用Tableau進行數(shù)據(jù)分析可視化展示
?1.?ZooKeeper實現(xiàn)HA
?2.?集群監(jiān)控的整體聯(lián)調(diào)
(1)大數(shù)據(jù)基站定位智能推薦商圈分析系統(tǒng)介紹
(2)數(shù)據(jù)前期清晰和數(shù)據(jù)分析目標指標的設(shè)定等
(1)關(guān)系型數(shù)據(jù)庫基礎(chǔ)知識
(2)hive的基本語法
(3)hive的架構(gòu)及設(shè)計原理
(4)hive安裝部署與案例等
(5)Sqoop安裝及使用
(6)Sqoop與關(guān)系型數(shù)據(jù)庫進行交互等
(7)動手實踐
(1)Hbase簡介、安裝及配置
(2)Hbase的數(shù)據(jù)存儲與數(shù)據(jù)模型
(3)Hbase?Shell
(4)Hbase訪問接口
(5)Hbase數(shù)據(jù)備份與恢復(fù)方法等
(6)動手實踐(數(shù)據(jù)轉(zhuǎn)儲與備份)
(1)背景與分析推斷目標
(2)分析方法與過程推斷
1)數(shù)據(jù)抽取
2)數(shù)據(jù)探索分析
3)數(shù)據(jù)預(yù)處理
(3)動手實踐(分析既定指標數(shù)據(jù))
(1)使用Tableau展示數(shù)據(jù)分析結(jié)果
(2)使用HighCharts、ECharts展示數(shù)據(jù)分析結(jié)果