免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
什么是數(shù)據(jù)?數(shù)據(jù)科學(xué)家需要掌握哪些技能?終于有人講明白了

導(dǎo)讀:人們認為“數(shù)據(jù)”一詞自16世紀伊始便已被定義和使用了。隨著計算機技術(shù)的進步,數(shù)據(jù)一詞變得越發(fā)流行。然而,數(shù)據(jù)不僅限于計算機科學(xué)和電子學(xué)領(lǐng)域,各個領(lǐng)域的應(yīng)用在某種程度上使用并產(chǎn)生了數(shù)據(jù)。

各種數(shù)據(jù)源每天都產(chǎn)生大量的數(shù)據(jù)。這些數(shù)據(jù)源包括每日的交易數(shù)據(jù),由傳感器產(chǎn)生的數(shù)據(jù),由上網(wǎng)產(chǎn)生的并存儲在服務(wù)器上的數(shù)據(jù),由用戶產(chǎn)生的數(shù)據(jù)以及提供給用戶的數(shù)據(jù)等。換言之,數(shù)據(jù)隨處可見。在這些數(shù)據(jù)源中,網(wǎng)絡(luò)數(shù)據(jù)源是最大的。

如果通過適當?shù)募夹g(shù)使這些數(shù)據(jù)變得有用,那么這將為問題求解和決策制定提供很大的幫助。

作者:拉金德拉·阿卡拉卡(Rajendra Akerkar)

如需轉(zhuǎn)載請聯(lián)系大數(shù)據(jù)(ID:hzdashuju)

01 什么是數(shù)據(jù)?

數(shù)據(jù)是來自某個領(lǐng)域的原始觀測值。原始數(shù)據(jù)是一組事實的集合,比如數(shù)字、單詞、測量值,或者事物的文本說明。單詞“數(shù)據(jù)”(data)來自于拉丁文“datum”,其含義為給定的事物。

數(shù)據(jù)是無處不在的,亦是事物測量儀器化的重要單位。所有的實體直接或間接地與事務(wù)相關(guān),如商業(yè)中的客戶、商業(yè)業(yè)務(wù)的組成部分,以及處理業(yè)務(wù)的外部實體,這些實體產(chǎn)生了大量的數(shù)據(jù)。

數(shù)據(jù)通常被看作是為了參考或分析而收集在一起的事實、統(tǒng)計資料和觀測值。數(shù)據(jù)為推理和計算提供了基礎(chǔ)。

數(shù)據(jù)既可以是定性的,也可以是定量的。定性數(shù)據(jù)的例子如人們描述一輛車多豪華,或者香水的味道(多么好聞的味道?。?。

定量數(shù)據(jù)的例子如描述一輛車有4個輪子。后者關(guān)于車的例子描述了可數(shù)的物品,因此其本質(zhì)是離散的。另一方面,“我的體重是150磅”是一個連續(xù)的定量數(shù)據(jù)的例子。樹的高度、比賽花費的時間以及人的身高等也是連續(xù)的定量數(shù)據(jù)的例子。

02 數(shù)據(jù)科學(xué)

數(shù)據(jù)科學(xué)對不同的數(shù)據(jù)源進行系統(tǒng)地研究和分析,理解數(shù)據(jù)的含義,并運用數(shù)據(jù)作為工具實現(xiàn)有效的決策制定和問題求解。從這些數(shù)據(jù)中獲取知識有助于組織機構(gòu)在成本、交付和生產(chǎn)力方面更高效,確定新的機遇,并建立強大的品牌形象。

數(shù)據(jù)科學(xué)的目的是促進與數(shù)據(jù)相關(guān)的各種流程的應(yīng)用,例如數(shù)據(jù)獲取、清洗噪聲的數(shù)據(jù)預(yù)處理、數(shù)據(jù)表示、數(shù)據(jù)評估、數(shù)據(jù)分析,以及數(shù)據(jù)創(chuàng)建相關(guān)知識的運用。數(shù)據(jù)科學(xué)在新方法分享、優(yōu)化地管理和分析數(shù)據(jù)方面做出了貢獻。

數(shù)據(jù)科學(xué)的目標是發(fā)現(xiàn)知識,這些知識有助于在個人、組織機構(gòu)以及全球?qū)用嫔线M行決策。除了識別、收集、表示、評估以及利用數(shù)據(jù)來發(fā)現(xiàn)知識,數(shù)據(jù)科學(xué)亦促進了數(shù)據(jù)的有效運用,有助于在計算開銷、質(zhì)量和準確性方面進行優(yōu)化。

可以想到,數(shù)據(jù)科學(xué)領(lǐng)域最終出現(xiàn)的機會便是大數(shù)據(jù)—通過分析由網(wǎng)絡(luò)日志、傳感器系統(tǒng)、事務(wù)數(shù)據(jù)生成的大數(shù)據(jù),能夠產(chǎn)生有效的洞察力并派生新數(shù)據(jù)產(chǎn)品。

03 現(xiàn)代商業(yè)中數(shù)據(jù)科學(xué)的重要性

盡管數(shù)據(jù)被稱作新商業(yè)時代的貨幣,但是僅擁有數(shù)據(jù)是不夠的。為了達到更好且有效地利用數(shù)據(jù)的目的,我們必須以適當?shù)姆绞教幚砗头治鰯?shù)據(jù)來獲取對某一特定領(lǐng)域的深入洞察力。特別地,當數(shù)據(jù)來自多個數(shù)據(jù)源時,這些數(shù)據(jù)不具有特定的格式,并且還伴有很多的噪聲,那么就必須對這些數(shù)據(jù)進行清洗、整理、分析和建模。

數(shù)據(jù)科學(xué)在商業(yè)的各個方面都具有其適用性。各個業(yè)務(wù)活動都會產(chǎn)生大量的數(shù)據(jù)。擁有如此大量的數(shù)據(jù)應(yīng)該是一種理想的狀態(tài);相反,這些數(shù)據(jù)會因其量大、無構(gòu)造性和冗余性的特點而產(chǎn)生大量的問題。

很多研究者將一些參數(shù)如容量、速度以及多樣性視為處理數(shù)據(jù)的主要障礙。根據(jù)Eric Horvitz、Tom Mitchell(2010)以及James Manyika 等人(2011)的研究,適當?shù)胤治龊褪褂蒙鲜龃髷?shù)據(jù)可以提供解決問題的機會,加速經(jīng)濟增長并提高生活質(zhì)量。

由于我們對適當?shù)厥褂煤屠斫膺@些數(shù)據(jù)的局限,該數(shù)據(jù)沒能促進生活質(zhì)量反而使我們的生活變得悲催,這真是一種諷刺。很多研究者和創(chuàng)新貢獻者給出了處理大數(shù)據(jù)的有用的模型和技術(shù),然而我們?nèi)孕枰环N全面且聚焦的方法。

在Thomas H. Davenport、Don Cohen和Al Jacobson(2005)給出的調(diào)查中,一些數(shù)據(jù)科學(xué)的踐行公司確認了一些關(guān)鍵的特性和參數(shù)。這項調(diào)查包含了32家在不同領(lǐng)域成功踐行數(shù)據(jù)科學(xué)的公司,這些公司基于數(shù)據(jù)科學(xué)和分析獲得了競爭優(yōu)勢。

根據(jù)上述研究,這些公司給出了以下的主要觀測情況:

  • 有不止一種類型的數(shù)據(jù)科學(xué)家和專家以增長業(yè)務(wù)為目的對數(shù)據(jù)進行分析,并從事與數(shù)據(jù)科學(xué)相關(guān)的工作。

  • 不僅是統(tǒng)計數(shù)據(jù),還有深度數(shù)據(jù)分析、建模和可視化技術(shù)也用于與業(yè)務(wù)相關(guān)的決策。

  • 數(shù)據(jù)科學(xué)活動不僅限于小部分商業(yè)業(yè)務(wù),也可應(yīng)用于多種業(yè)務(wù)活動中。

  • 公司策略傾向于使用數(shù)據(jù)分析和數(shù)據(jù)科學(xué)活動。

很多公司被數(shù)據(jù)科學(xué)的應(yīng)用所吸引,并將其用于改進業(yè)務(wù)活動;然而他們并不了解這些數(shù)據(jù)科學(xué)活動怎樣規(guī)劃以及如何修正經(jīng)營策略。

第一個需求便是技術(shù)嫻熟的數(shù)據(jù)科學(xué)家和專家,這些專業(yè)人士能夠設(shè)想到可能的組織效益和技術(shù)收益。為了實現(xiàn)與數(shù)據(jù)科學(xué)相關(guān)的活動,預(yù)想到對資源和基礎(chǔ)設(shè)施的需求是十分必要的。鑒別可能的數(shù)據(jù)源和訪問權(quán)限以及獲取數(shù)據(jù)所需要的方法也是十分必要的。

專家也能夠提供關(guān)于其他領(lǐng)域的專家、工具和模型的可用性指導(dǎo),有助于進行數(shù)據(jù)處理。預(yù)先估計數(shù)據(jù)科學(xué)活動中的活動規(guī)劃,領(lǐng)域?qū)<夷軌蜃R別將會遇到的困難。一旦選定了數(shù)據(jù)科學(xué)家或者專家,活動規(guī)劃的下一步便是確認邁向目標將要面臨的困難。

第二步即是學(xué)習(xí)并確立數(shù)據(jù)科學(xué)技術(shù)。統(tǒng)計學(xué)方法、建模、程序設(shè)計、可視化、機器學(xué)習(xí)以及數(shù)據(jù)挖掘等技術(shù)對于進行數(shù)據(jù)科學(xué)活動都是必不可少的。

第三步是活動導(dǎo)向步驟。在局部層面上移除已確定的不利因素,并給出糾正措施。應(yīng)用數(shù)據(jù)科學(xué)的主要困難是數(shù)據(jù)的可用性、數(shù)據(jù)的收集以及為獲取充分意義而對已獲取數(shù)據(jù)進行的組織。另外,需要確定適用于數(shù)據(jù)收集的模型。因此,需要針對特定應(yīng)用來設(shè)計模型或技術(shù)。

第四步便是利用已收集的數(shù)據(jù)和挑選出的方案實現(xiàn)數(shù)據(jù)科學(xué)活動。收集的數(shù)據(jù)必須是干凈的、分析過的,還要用適合的模型處理并以良好的方式呈現(xiàn)給用戶。

在這一階段中,為了高效地實現(xiàn)模型可以對挑選出的方案進行較小的變動。上述活動如圖1-1所示。

▲圖1-1 數(shù)據(jù)科學(xué)活動的大致階段

由于上述數(shù)據(jù)科學(xué)活動是一個早期版本,因此這些活動通常在局部層面上執(zhí)行,或者局限于給定的場景中。如果得到的結(jié)果看起來是有希望的,并且與商業(yè)目標一致,那么便以擴展的形式在組織層面上設(shè)計類似的數(shù)據(jù)科學(xué)活動,并對其進行實驗。隨后,為取得競爭優(yōu)勢,數(shù)據(jù)科學(xué)活動是以一種綜合的方式來進行的。

04 數(shù)據(jù)科學(xué)家

數(shù)據(jù)科學(xué)家是數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)表示和數(shù)據(jù)分析中的關(guān)鍵人物。他(數(shù)據(jù)科學(xué)家)精心地策劃各種各樣的商業(yè)活動,協(xié)調(diào)各業(yè)務(wù)部門并管理業(yè)務(wù)的生命周期。

為了進行上述工作,數(shù)據(jù)科學(xué)家必須具有多領(lǐng)域的知識和多方面的能力。除此之外,數(shù)據(jù)科學(xué)家還必須具備同時進行多個項目的能力。最理想的是,他應(yīng)具有分析、機器學(xué)習(xí)、數(shù)據(jù)挖掘和統(tǒng)計數(shù)據(jù)處理等多方面能力,具備一點計算機程序設(shè)計能力也是可取的。

依賴于公司(organization)的性質(zhì)、規(guī)模以及業(yè)務(wù)范圍,數(shù)據(jù)科學(xué)家的工作將發(fā)生變化。他工作于以數(shù)據(jù)處理為主要業(yè)務(wù)的公司。在這種情況下,對數(shù)據(jù)科學(xué)家而言機器學(xué)習(xí)和統(tǒng)計數(shù)據(jù)處理是十分重要的技能。

一些公司在某些階段需要通過高效的基礎(chǔ)設(shè)施處理大量數(shù)據(jù)。在此情況下,數(shù)據(jù)科學(xué)家有助于構(gòu)建數(shù)據(jù)基礎(chǔ)設(shè)施和其他資源(包括人力資源)。數(shù)據(jù)科學(xué)家期望在軟件工程方面具有入門背景知識。

一些公司不是數(shù)據(jù)驅(qū)動的,也不必處理和分析數(shù)據(jù),但是這些公司擁有適量的數(shù)據(jù)。從這些數(shù)據(jù)中發(fā)現(xiàn)知識十分有助于公司的業(yè)務(wù)活動。多數(shù)情況是,大公司都屬于這一類。在這種情況下,除了基本的技能,數(shù)據(jù)科學(xué)家應(yīng)展現(xiàn)出數(shù)據(jù)可視化的能力。表1-1給出了數(shù)據(jù)科學(xué)家必備的基本技能。

換言之,數(shù)據(jù)科學(xué)家在業(yè)務(wù)分析、統(tǒng)計學(xué)和計算機科學(xué)領(lǐng)域是個多面手,精通架構(gòu)健壯性、實驗設(shè)計、算法復(fù)雜度、儀表數(shù)據(jù)和數(shù)據(jù)可視化等領(lǐng)域。數(shù)據(jù)科學(xué)家在數(shù)據(jù)科學(xué)中首屈一指,具備對內(nèi)部和外部數(shù)據(jù)進行結(jié)合的權(quán)限,以給出能夠提高商業(yè)決策能力的洞察力。

▲表1-1 數(shù)據(jù)科學(xué)家的重要技能

①http://www.r-project.org/

②https://www.python.org/

③http://dygraphs.com/

本文摘編自《大數(shù)據(jù)分析與算法》

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
高考后選專業(yè),數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù),這個專業(yè)就業(yè)前景怎樣
數(shù)據(jù)科學(xué)、大數(shù)據(jù)和數(shù)據(jù)分析之間的區(qū)別?
數(shù)據(jù)科學(xué)極簡史(1962
解讀|數(shù)據(jù)科學(xué)領(lǐng)域常見的3種職業(yè)轉(zhuǎn)型方向
數(shù)據(jù)科學(xué),數(shù)據(jù)分析和機器學(xué)習(xí)之間,有什么本質(zhì)區(qū)別?
周末充電系列:11本機器學(xué)習(xí)和數(shù)據(jù)科學(xué)書籍推薦!
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服