跨入數(shù)據(jù)世界和機(jī)器學(xué)習(xí)你需要知道有哪些
掃描二維碼
隨時(shí)隨地手機(jī)看文章
許多人試圖進(jìn)入與數(shù)據(jù)相關(guān)的領(lǐng)域;但是,由于分支學(xué)科之間有很多交叉和混淆,網(wǎng)絡(luò)上也有很多可用的資源,有的人可能會(huì)迷失方向,究竟從哪里開始呢?許多人最終學(xué)習(xí)了一套通用的技能,成為了數(shù)據(jù)科學(xué)通才。
這就是我整理這篇文章的原因,希望能幫助你發(fā)現(xiàn)并選擇適合你的方向。在這篇文章中我還總結(jié)了每個(gè)領(lǐng)域所需的所有能力,這樣有助于你制定下一步行動(dòng)計(jì)劃!這里的路線圖涵蓋了數(shù)據(jù)和每個(gè)人都需要的技能。我們將介紹精準(zhǔn)的細(xì)節(jié)來希望能幫助到你去發(fā)現(xiàn)自己還缺乏什么技能。
數(shù)據(jù)科學(xué)
數(shù)據(jù)科學(xué)被稱為”處理數(shù)據(jù)的藝術(shù)”。作為一名數(shù)據(jù)科學(xué)家,您不只是使用編程工具來從A點(diǎn)到達(dá)B點(diǎn);但是,你首先要定義A點(diǎn),然后從這些點(diǎn)開始繪制所有可能的路徑,探索輸入數(shù)據(jù),進(jìn)行假設(shè),正式的提出假設(shè),使用不同的統(tǒng)計(jì)和數(shù)學(xué)工具測(cè)試你的假設(shè),如果需要,設(shè)計(jì)和應(yīng)用實(shí)驗(yàn),評(píng)估當(dāng)前的周期,如果需要,開發(fā)一些編程工具,或者更多…
數(shù)據(jù)科學(xué)有三個(gè)主要組成部分:
機(jī)器學(xué)習(xí)和計(jì)算機(jī)科學(xué)技能
數(shù)學(xué)和統(tǒng)計(jì)
領(lǐng)域相關(guān)的知識(shí)
數(shù)據(jù)科學(xué)包括不同的技術(shù)和工具。在這里,我們將首先在python中列出所需的技能堆棧。
Python方向所需的技能
熟悉Numpy、panda、sklearn和matplotlib
強(qiáng)大的SQL技能,NOSQL技能也是非常必要的。包括設(shè)計(jì)規(guī)范化模式,良好的索引技術(shù),和寫作高效的查詢
數(shù)據(jù)清理
良好的數(shù)據(jù)可視化技能(如tableau或library、matplotlib、seaborn、Bookeh等)
統(tǒng)計(jì)分析技能。這包括熟悉不同的統(tǒng)計(jì)問題類型。
實(shí)驗(yàn)設(shè)計(jì)和統(tǒng)計(jì)測(cè)試(參數(shù)和非參數(shù)測(cè)試)
熟悉大數(shù)據(jù)框架/基礎(chǔ)設(shè)施(Spark、hive、Hadoop、Mongo等)
機(jī)器學(xué)習(xí)技能(技能水平因業(yè)務(wù)邏輯導(dǎo)致的差異很大)
對(duì)數(shù)據(jù)科學(xué)的整個(gè)周期有很較強(qiáng)的理解(尖銳問題、探索性數(shù)據(jù)分析、推理、形式化統(tǒng)計(jì)建模、解釋和溝通)
講故事的技巧(PowerPoint等)
數(shù)據(jù)科學(xué)是一個(gè)非常廣泛的領(lǐng)域,通常需要基于面臨的任務(wù)去學(xué)習(xí)新的知識(shí)和技能(如何構(gòu)建、推薦系統(tǒng)、序列建模等)在本文中我只介紹基本技能集。
數(shù)據(jù)分析
數(shù)據(jù)分析基本上是回答在使用數(shù)據(jù)時(shí)與業(yè)務(wù)相關(guān)的問題。這些問題可能是:
描述性:您只是在描述您所擁有的數(shù)據(jù)樣本及其相關(guān)統(tǒng)計(jì)數(shù)據(jù)。您對(duì)樣品之外的數(shù)據(jù)不感興趣。
探索性:你正在探索不同的模式,趨勢(shì)數(shù)據(jù)、季節(jié)性、關(guān)系和分布。通常做為探索性數(shù)據(jù)分析可視化工具。
推論性:你正試圖推斷一些有關(guān)的問題的答案,基于假設(shè)檢驗(yàn)的樣本數(shù)據(jù)以及不同的靜態(tài)測(cè)試技術(shù)。
因果關(guān)系:這類問題通常需要運(yùn)行一個(gè)或更多的實(shí)驗(yàn)來檢驗(yàn)兩個(gè)或更多的變量之間的因果關(guān)系。
機(jī)械論的:這一個(gè)問題根本聯(lián)系在兩個(gè)變量集。通常很難在不受控制的情況下發(fā)現(xiàn)它的環(huán)境。
數(shù)據(jù)分析通常被認(rèn)為是數(shù)據(jù)科學(xué)的一個(gè)分支,適用于沒有或幾乎沒有技術(shù)背景的專業(yè)人士。它通常需要統(tǒng)計(jì)學(xué)和領(lǐng)域相關(guān)經(jīng)驗(yàn)。
到目前為止,大多數(shù)數(shù)據(jù)分析師使用SPSS等工具;然而,現(xiàn)在出現(xiàn)了一種新的趨勢(shì),即招聘具有R/ python技能的數(shù)據(jù)分析師,因?yàn)樗麄兙邆涓鼜?qiáng)大的預(yù)測(cè)分析和大數(shù)據(jù)工具的技能。
Python方向所需的技能
熟悉Numpy、panda、sklearn和matplotlib
強(qiáng)大的SQL技能,NOSQL技能。正常情況下這包括編寫有效的查詢
良好的數(shù)據(jù)可視化技能(如tableau或library、matplotlib、seaborn、Bookeh等)
統(tǒng)計(jì)分析技能
實(shí)驗(yàn)設(shè)計(jì)與統(tǒng)計(jì)檢驗(yàn)
了解基本的預(yù)測(cè)分析工具,如回歸模型與聚類、隊(duì)列分析等。
對(duì)數(shù)據(jù)科學(xué)的整個(gè)周期有很較強(qiáng)的理解(尖銳問題、探索性數(shù)據(jù)分析、推理、形式化統(tǒng)計(jì)建模、解釋和溝通)
機(jī)器學(xué)習(xí)工程
機(jī)器學(xué)習(xí)是人工智能的一個(gè)領(lǐng)域,我們用它來實(shí)現(xiàn)那些通常需要人類的智慧來做特別在視覺和語(yǔ)言過程的自動(dòng)化。ML是AI的分支,它使用數(shù)據(jù)在人工智能中其他非數(shù)據(jù)中心的方來應(yīng)用它。
機(jī)器學(xué)習(xí)是其中技術(shù)含量最高的。它需要一系列的技術(shù)技能,比如編寫有效的查詢,高的學(xué)習(xí)算法(時(shí)間和精度)。
請(qǐng)永遠(yuǎn)記住,在我們操控電腦時(shí),電腦和我們一樣聰明
Python方向所需的技能
熟悉Numpy、panda、sklearn和matplotlib
強(qiáng)大的SQL技能,NOSQL技能也是非常必要的
良好的數(shù)據(jù)可視化技能(如tableau或library、matplotlib、seaborn等)
熟悉大數(shù)據(jù)框架/基礎(chǔ)設(shè)施(Spark、hive、Hadoop、Mongo等)
對(duì)基本的ML算法有很強(qiáng)的理解(回歸,分類、聚類和降維)
特征工程與超參數(shù)微調(diào)
對(duì)不同的優(yōu)化算法在什么時(shí)候使用有較強(qiáng)的直覺性
構(gòu)造和評(píng)估ML算法
了解不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和新的病毒架構(gòu)
強(qiáng)化學(xué)習(xí)
非常熟悉一個(gè)或多個(gè)TGE深度學(xué)習(xí)框架(TensorFlow、Keras、Caffe或Torch等)
網(wǎng)絡(luò)分析
數(shù)據(jù)工程
數(shù)據(jù)工程是關(guān)注構(gòu)建數(shù)據(jù)管道和基礎(chǔ)設(shè)施的領(lǐng)域。這項(xiàng)工作對(duì)于任何擁有大量數(shù)據(jù)并計(jì)劃聘請(qǐng)數(shù)據(jù)科學(xué)家的公司來說都是至關(guān)重要的。通常情況下,雇傭數(shù)據(jù)工程師先于雇傭數(shù)據(jù)科學(xué)家。
Python方向所需的技能
深入了解SQL和NoSQL解決方案
系統(tǒng)架構(gòu)技能
用于高效數(shù)據(jù)存儲(chǔ)和檢索的ETL和其他數(shù)據(jù)倉(cāng)庫(kù)工具
熟悉數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)等不同的AWS或任何云服務(wù)
基于大數(shù)據(jù)的分析(即基于mongo或Hadoop的框架,如spark、hive、mapreduce)
基本了解數(shù)據(jù)建模、ML和統(tǒng)計(jì)分析
建立高效的數(shù)據(jù)管道
畢竟,所有這些領(lǐng)域在工業(yè)上都是剛剛興起,還沒有很好地建立起來。這就是為什么你需要跟上新的技能,病毒架構(gòu),論文等。
未來,我也許會(huì)發(fā)布另一篇關(guān)于最佳推薦的在線課程和學(xué)位的文章,指引我們學(xué)習(xí)每一項(xiàng)技能,并快速瀏覽這些要點(diǎn)。





