大數(shù)據(jù)分析的概念已經(jīng)成為我們社會不可或缺的一部分。眾多公司和機(jī)構(gòu)已經(jīng)開發(fā)了大數(shù)據(jù)應(yīng)用程序,取得了不同程度的成功。社交媒體平臺和傳感器等技術(shù)正在以前所未有的速度生成數(shù)據(jù),就像一條裝配線。如今,幾乎所有東西都是物聯(lián)網(wǎng)的一部分:智能藥丸、智能電表、智能飛機(jī)發(fā)動機(jī)以及更多的設(shè)備在不斷地創(chuàng)造實(shí)時數(shù)據(jù)。這些數(shù)據(jù)通常是非結(jié)構(gòu)化的,并且以巨大的數(shù)量生成,這就需要進(jìn)行有效的管理和分析。這就引出了一個問題:你如何為大數(shù)據(jù)分析制定高效且有效的政策?以及你需要采取哪些步驟才能讓大數(shù)據(jù)為你服務(wù)?本頁面解釋了大數(shù)據(jù)的要點(diǎn)以及大數(shù)據(jù)分析的最佳策略。
什么是大數(shù)據(jù)?
大數(shù)據(jù)是非常龐大或非結(jié)構(gòu)化的數(shù)據(jù)。它是最難分析的數(shù)據(jù)。為此,你需要先進(jìn)的大數(shù)據(jù)技術(shù)和能夠處理大量非結(jié)構(gòu)化數(shù)據(jù)的大數(shù)據(jù)解決方案(工具)。
為什么要進(jìn)行大數(shù)據(jù)分析?答案很簡單:大數(shù)據(jù)中常常隱藏著豐富的信息,這些信息可以幫助你的企業(yè)或機(jī)構(gòu)表現(xiàn)得更好。你會突然開始看到一些用常規(guī)數(shù)據(jù)分析無法發(fā)現(xiàn)的模式。你進(jìn)行大數(shù)據(jù)研究,偶然發(fā)現(xiàn)新的知識,這些知識可以給你帶來競爭優(yōu)勢或大幅提高你的服務(wù)質(zhì)量。
決定大數(shù)據(jù)應(yīng)用成敗的相關(guān)問題
每天我們都被大量的數(shù)據(jù)淹沒。不知何故,你感覺你的組織能夠并且必須對這些數(shù)據(jù)做些什么。畢竟,競爭不會停滯不前,技術(shù)在快速發(fā)展,市場也在不斷變化。于是出現(xiàn)了一些具體的問題:
1. 我的組織可以并且應(yīng)該用大數(shù)據(jù)分析做什么?
2. 一個成功的項(xiàng)目是什么樣的?你何時以及如何讓利益相關(guān)者參與到一個項(xiàng)目中?
3. 大數(shù)據(jù)科學(xué)有哪些風(fēng)險、陷阱以及利弊?
4. 在我的組織中可以確定哪些大數(shù)據(jù)應(yīng)用,其影響是什么?
5. 有哪些新的商業(yè)模式支持大數(shù)據(jù)分析?
6. 哪些大數(shù)據(jù)例子引人遐想,你能從中學(xué)到什么?
7. 我在哪里以及如何存儲大數(shù)據(jù)?什么時候需要數(shù)據(jù)湖?
8. 有哪些大數(shù)據(jù)分析工具可用?
9. 我的員工需要具備哪些技能才能管理好數(shù)據(jù)?
10. 我的組織應(yīng)該如何處理任何大數(shù)據(jù)隱私問題?
11. 需要考慮哪些相關(guān)法律法規(guī)?
大數(shù)據(jù)是易變的、復(fù)雜的、大量的和非結(jié)構(gòu)化的
大數(shù)據(jù)對任何組織都可能具有前所未有的價值。但這些數(shù)據(jù)也很難分析和應(yīng)用。為什么呢?因?yàn)榇髷?shù)據(jù)是易變的、復(fù)雜的、規(guī)模龐大且非結(jié)構(gòu)化的。例如,想想衛(wèi)星圖像、系統(tǒng)日志文件或聲音片段,你可以分析它們以提取信息。
大數(shù)據(jù)管理領(lǐng)域特別有趣,因?yàn)槟憧梢蚤_始創(chuàng)建預(yù)測模型、更新你的商業(yè)模式(從被動變?yōu)橹鲃樱┎?shí)施顛覆性創(chuàng)新。
大數(shù)據(jù)示例與應(yīng)用
為了向其他組織學(xué)習(xí)并作為靈感來源,我們在此提供一些在多個領(lǐng)域中具有吸引力的大數(shù)據(jù)應(yīng)用示例。引人注目的是,公共部門的大數(shù)據(jù)應(yīng)用示例數(shù)量很多。對此有一個合理的解釋:公共空間本身非常龐大,大致包括你的家、辦公室和其他目的地之間的所有區(qū)域。
此外,如今拍攝照片和視頻圖像很容易,甚至可以通過讓無人機(jī)攜帶(紅外)攝像頭自動飛行來實(shí)現(xiàn)。例如,照片可以顯示樹木是否生病、花園是否整潔以及雜草是否過高。但這些照片也可以顯示停車位是否被沒有有效許可證的汽車占用,或者它們可以指示戶外區(qū)域物體的維護(hù)狀態(tài)。在醫(yī)療保健領(lǐng)域也有許多大數(shù)據(jù)的例子。在醫(yī)療保健領(lǐng)域,越來越常見的是使用大數(shù)據(jù)分析使專家能夠早期檢測疾病。
首先考慮一個有用的大數(shù)據(jù)應(yīng)用
都柏林的案例非常清楚地表明,他們事先提出了一個相關(guān)的應(yīng)用。這是在你開始進(jìn)行大數(shù)據(jù)管理并構(gòu)建一個成熟架構(gòu)之前最關(guān)鍵的一步?;谶@些數(shù)據(jù),你可以做出哪些更好或更快的決策呢?在這個領(lǐng)域中,人們往往過于關(guān)注數(shù)據(jù)存儲或大數(shù)據(jù)工具,而不是它能產(chǎn)生什么以及它能實(shí)現(xiàn)哪些新的商業(yè)模式。
大數(shù)據(jù)的原則和特征:五個 V。
大數(shù)據(jù)具有一些特征,我們稱之為五個 V。以下一種或多種情況可被視為大數(shù)據(jù):
1. 容量(Volume):大數(shù)據(jù)有多大?數(shù)據(jù)量非常大,以至于不再適合傳統(tǒng)的 SQL 數(shù)據(jù)庫。數(shù)據(jù)存儲在文件系統(tǒng)或所謂的 NoSQL 數(shù)據(jù)庫中。提取的數(shù)據(jù)存儲在數(shù)據(jù)倉庫中。
2. 速度(Velocity):數(shù)據(jù)出現(xiàn)得很快,并且可能很快再次消失。例如,推特會將較舊的推文移至檔案中。那些數(shù)據(jù)很快就消失了。機(jī)器數(shù)據(jù)(物聯(lián)網(wǎng)大數(shù)據(jù))甚至幾乎立即消失。所以,你必須非常迅速地獲取數(shù)據(jù)。
3. 多樣性(Variety):數(shù)據(jù)在結(jié)構(gòu)、容量和意義上有很大的變化。
4. 準(zhǔn)確性(Veracity):不同的數(shù)據(jù)質(zhì)量以及對數(shù)據(jù)可靠性的懷疑使得大數(shù)據(jù)的使用存在問題。
5. 價值(Value):這才是真正重要的,大數(shù)據(jù)將為你的客戶和你的組織帶來什么價值?
你可以用大數(shù)據(jù)的特征來闡明大數(shù)據(jù)的原則,但這并不能說明全部情況。特別是在圖像處理方面。由于這個特定的應(yīng)用,我們也把攝影稱為新的通用語言,因?yàn)榛谡掌?,你可以非常精確和快速地相對容易地識別出產(chǎn)品中的缺陷,還可以檢測出人類、動物或植物中的初期疾病。圖像處理的應(yīng)用可能性是巨大的,特別是與機(jī)器人、人工智能和無人機(jī)結(jié)合使用時。
大數(shù)據(jù)分析:八步流程。
為了從大數(shù)據(jù)中獲取大量價值,你需要采取特定的一系列步驟。這些步驟有助于你構(gòu)建項(xiàng)目結(jié)構(gòu),并確保你從一個業(yè)務(wù)問題開始。這一點(diǎn)至關(guān)重要,因?yàn)樵S多項(xiàng)目在實(shí)際中并未顯示出回報。通常,會收集大量數(shù)據(jù),但幾乎沒有進(jìn)行分析和應(yīng)用。以下是大數(shù)據(jù)分析的八個步驟以及關(guān)于如何通過大數(shù)據(jù)取得成功的解釋:
1. 確定并定義業(yè)務(wù)問題:在這里,你和你的同事將探討哪些業(yè)務(wù)問題適合進(jìn)行大數(shù)據(jù)分析。在這個過程中,首先使用你所在組織或業(yè)務(wù)流程中最重要的關(guān)鍵績效指標(biāo)(KPI)。
2. 收集并準(zhǔn)備相關(guān)數(shù)據(jù):基于業(yè)務(wù)問題,你將選擇一個初始數(shù)據(jù)集,并在相關(guān)情況下進(jìn)行清理。
3. 探索和分析數(shù)據(jù):現(xiàn)在你將進(jìn)行大數(shù)據(jù)分析,并使用商業(yè)智能工具探索數(shù)據(jù),以便了解數(shù)據(jù)以及它是否能夠解決業(yè)務(wù)問題。你還將以各種方式可視化數(shù)據(jù)。
4. 整理出最終的數(shù)據(jù)集:你執(zhí)行步驟 1、2 和 3,直到你擁有一個良好的數(shù)據(jù)集。
5. 構(gòu)建大數(shù)據(jù)模型:你將構(gòu)建一個模型,其中算法基于訓(xùn)練數(shù)據(jù)集進(jìn)行預(yù)測。
6. 驗(yàn)證模型:現(xiàn)在需要由領(lǐng)域?qū)<议_始驗(yàn)證模型;他們確定算法給出的預(yù)測結(jié)果是否正確。
7. 將模型投入生產(chǎn):如果模型有效,考慮到初始情況和業(yè)務(wù)問題,并且你已經(jīng)控制了數(shù)據(jù)質(zhì)量,那么你將大數(shù)據(jù)模型投入生產(chǎn)。
8. 評估模型的結(jié)果:定期測試模型的預(yù)測是否仍然準(zhǔn)確,并查看它產(chǎn)生了哪些結(jié)果?;诖嗽u估,你將創(chuàng)建一個更復(fù)雜的模型版本,能夠進(jìn)行更準(zhǔn)確的預(yù)測。
這大數(shù)據(jù)分析的八個步驟有助于你始終將業(yè)務(wù)問題置于技術(shù)項(xiàng)目的中心,并通過負(fù)責(zé)的角色組織治理(大數(shù)據(jù)治理)。此外,路線圖明確表明這不是一次性的練習(xí),而是一個持續(xù)改進(jìn)和完善模型的過程。最后,在大數(shù)據(jù)中尋找模式不能再使用傳統(tǒng)的分析工具,因?yàn)閿?shù)據(jù)太大或太復(fù)雜。你將不得不開發(fā)一種算法,例如神經(jīng)網(wǎng)絡(luò)(人工智能),它將以高效有效的方式為你完成這項(xiàng)工作。
從傳統(tǒng)商業(yè)智能到大數(shù)據(jù)科學(xué)
傳統(tǒng)上,商業(yè)智能(BI)處理結(jié)構(gòu)化數(shù)據(jù),你可以相對容易地存儲和訪問這些數(shù)據(jù)。你可以基于這些數(shù)據(jù)創(chuàng)建數(shù)據(jù)儀表板。商業(yè)智能大數(shù)據(jù)科學(xué)涉及處理(大量)非結(jié)構(gòu)化數(shù)據(jù)和算法。你如何正確處理這些數(shù)據(jù),以及如何構(gòu)建良好的大數(shù)據(jù)分析?還有哪些方面你應(yīng)該注意?
由 Hadoop 組成的計算機(jī)集群提供巨大的計算能力
一個眾所周知的技術(shù)是 Hadoop。它提供了一個框架來訪問和過濾大量數(shù)據(jù)。在由許多計算機(jī)組成的集群上的 Hadoop 提供巨大的計算能力。這使得這些計算機(jī)能夠以閃電般的速度將特定數(shù)據(jù)提供給最終用戶的商業(yè)智能工具。
大數(shù)據(jù)與零數(shù)據(jù)
我們堅信大數(shù)據(jù)可以為你的組織增加巨大的價值。然而,你不應(yīng)局限于目前列出的可能性。有時,你沒有記錄的關(guān)于你的客戶或流程的數(shù)據(jù),即所謂的零數(shù)據(jù),比大數(shù)據(jù)包含更大的價值。
超越你自己的數(shù)據(jù)
還建議不要局限于您自己的數(shù)據(jù)。在你的分析中包括外部數(shù)據(jù)源和開放數(shù)據(jù)。這樣,你可以用相關(guān)的背景信息豐富內(nèi)部視角??紤]人口統(tǒng)計(客戶)數(shù)據(jù)和市場信息、競爭分析,還有諸如天氣、交通流量或社交媒體上的情緒等因素。如今,您更有可能從外到內(nèi)而不是從內(nèi)到外看待問題或機(jī)會。
采取雙軌策略:大數(shù)據(jù)科學(xué)不僅僅是大數(shù)據(jù)策略。
當(dāng)然,你需要開始制定政策和策略,以便在你的組織中啟動大數(shù)據(jù)預(yù)測分析,但快速開始嘗試大數(shù)據(jù)科學(xué)也至關(guān)重要。這是一個復(fù)雜的領(lǐng)域,通過嘗試,你將學(xué)習(xí)并更好地理解這個主題、風(fēng)險、利弊以及潛在回報。因此,建議采取雙軌政策,即制定政策和進(jìn)行實(shí)驗(yàn)。你希望在大數(shù)據(jù)挖掘中取得成功,因此了解主要風(fēng)險并盡早預(yù)測它們是有好處的:
1. 技術(shù)驅(qū)動的旅程:國際數(shù)據(jù)集團(tuán)(IDG)的研究表明,組織在大數(shù)據(jù)技術(shù)上的投資中,超過一半與大數(shù)據(jù)應(yīng)用以及這些應(yīng)用對流程、工作方式和人員的影響無關(guān)。這與我們在實(shí)踐中的經(jīng)驗(yàn)相符。因此,始終從業(yè)務(wù)角度啟動一個項(xiàng)目,并確保不是技術(shù)在主導(dǎo),而是你的業(yè)務(wù)策略、關(guān)鍵績效指標(biāo)和業(yè)務(wù)流程。
2. 數(shù)據(jù)的復(fù)雜性和規(guī)模:照片、文本、機(jī)器數(shù)據(jù)和視頻圖像可能很快就需要數(shù) TB 的存儲空間。雖然如今存儲空間的成本不高,但容量仍然是一個問題。此外,由于大數(shù)據(jù)分析可能會很快因數(shù)據(jù)的復(fù)雜性而陷入困境。因此,你需要大量的 “強(qiáng)大” 和智能計算能力來建立一個良好的系統(tǒng),以便你能夠快速且敏捷地開發(fā)應(yīng)用程序。該系統(tǒng)必須是可擴(kuò)展的、面向未來的和可測試的。
3. 數(shù)據(jù)質(zhì)量:在許多組織中仍然是一個很大且未被充分暴露的問題。計算表明,由于數(shù)據(jù)質(zhì)量差,大約 10% 的組織利潤會消失。在大數(shù)據(jù)挖掘中,數(shù)據(jù)質(zhì)量的挑戰(zhàn)變得更大,因?yàn)橥度肷a(chǎn)的機(jī)器學(xué)習(xí)模型通常像一個黑箱一樣運(yùn)行。此外,在數(shù)據(jù)湖中,幾乎沒有可用的設(shè)施來全面測量和提高數(shù)據(jù)質(zhì)量。
4. 倫理與大數(shù)據(jù)隱私:當(dāng)涉及到個人數(shù)據(jù)的處理和分析時,法律法規(guī),如《通用數(shù)據(jù)保護(hù)條例》(AVG),可能會很快成為成功應(yīng)用大數(shù)據(jù)機(jī)器學(xué)習(xí)的一個相當(dāng)大的障礙。
大數(shù)據(jù)和人工智能(AI)或大數(shù)據(jù)上的機(jī)器學(xué)習(xí)是兩個獨(dú)立的領(lǐng)域,但它們之間有很多關(guān)聯(lián)。如果你想在沒有人工智能的情況下分析大量數(shù)據(jù),那么作為一名數(shù)據(jù)分析師,你可能會花費(fèi)數(shù)年時間試圖將其全部整合在一起。如果你想在沒有機(jī)器學(xué)習(xí)模型的情況下分析大量非結(jié)構(gòu)化數(shù)據(jù),錯誤的幾率會很大,或者你會很快忽略一些事情。而且,人工智能會獲得更多價值,因?yàn)槟愕乃惴梢杂么罅繑?shù)據(jù)進(jìn)行訓(xùn)練。這增加了獲得可靠且準(zhǔn)確模型的機(jī)會。大數(shù)據(jù)與人工智能的結(jié)合產(chǎn)生了完美的相互作用,增加了你在大數(shù)據(jù)分析中取得顯著成功的機(jī)會。
分析大數(shù)據(jù)是新的黃金,新的石油。
如果你的大數(shù)據(jù)中隱藏著一些眾所周知的黃金寶藏呢?例如,你的公司比你的競爭對手提前一個月知道一種商品的價格將會上漲?;蛘唢w機(jī)發(fā)動機(jī)的傳感器數(shù)據(jù)顯示,在特定高度和特定不利天氣條件下,飛機(jī)在飛行中出現(xiàn)了故障。在許多情況下,發(fā)動機(jī)故障意味著災(zāi)難。正是這些關(guān)鍵應(yīng)用以及新的商業(yè)模式使大數(shù)據(jù)變得極其有趣。因此,大數(shù)據(jù)也被稱為新的黃金或新的石油,因?yàn)樗碇薮蟮膬r值。
通過大數(shù)據(jù)管理發(fā)現(xiàn)新機(jī)會并降低風(fēng)險。
或者想想對數(shù)百萬張精神病患者的相機(jī)圖像進(jìn)行分析。然后,你可以構(gòu)建一個模型,讓你能夠快速注意到患者的異常行為。這些模式告訴你,某個特定的人很有可能 “脫離正軌”,并帶來所有相關(guān)風(fēng)險。通過及早發(fā)現(xiàn)這種行為變化,你可以及時進(jìn)行(額外的)檢查和控制。這就是為什么組織渴望挖掘那座數(shù)據(jù)之山、發(fā)現(xiàn)機(jī)會并管理風(fēng)險。我們希望幫助你基于大數(shù)據(jù)預(yù)測分析從被動工作轉(zhuǎn)變?yōu)橹鲃庸ぷ鳌?
大數(shù)據(jù)解決方案和分析工具
只有選擇并獲得正確的工具、儀器和解決方案,你才能成功挖掘出黃金或其他有價值的資源。大數(shù)據(jù)也是如此。你需要特殊的大數(shù)據(jù)解決方案或大數(shù)據(jù)分析工具來存儲、分析和可視化大量數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)。這些大數(shù)據(jù)工具分為三類:
1. 存儲大數(shù)據(jù):想象一下Hadoop、MongoDB、Apache Cassandra 和 NoSQL,你將數(shù)據(jù)存儲在數(shù)據(jù)湖中。
2. 處理數(shù)據(jù):這是一個中間層,用于快速分析數(shù)據(jù),無論數(shù)據(jù)存儲在數(shù)據(jù)湖的何處。例如,Knime 是一個非常適合數(shù)據(jù)集成的開源環(huán)境。
3. 分析、報告和可視化大數(shù)據(jù):這類軟件允許你深入挖掘數(shù)據(jù)、進(jìn)行分析并創(chuàng)建數(shù)據(jù)可視化、算法和報告。例如 Datawrapper、Watson Analytics 和 FusionCharts。
市場上還有更多的大數(shù)據(jù)分析工具:IBM Cognos Analytics、SAP BusinessObjects、SAP HANA、Microsoft BI 和 Power BI、Oracle BI、WebFOCUS、Style Intelligence、Yellowfin、Pentaho BI、SAS、BOARD、MicroStrategy、QlikView、Qlik Sense、Sisense、TIBCO JasperSoft、Tableau Software、Infor Birst。
大數(shù)據(jù)分析成功案例
越來越多的關(guān)于大數(shù)據(jù)與分析的成功案例正在迅速涌現(xiàn)。這些案例也不再被媒體忽視。阿姆斯特丹消防隊使用大數(shù)據(jù)預(yù)防火災(zāi)的事實(shí)已經(jīng)登上了荷蘭國家電視臺的晚間新聞和英國廣播公司。阿姆斯特丹警方能夠在罪犯犯罪之前將其抓獲,這使他們在 “荷蘭最聰明的組織” 中登上領(lǐng)獎臺。
都柏林市利用大數(shù)據(jù)優(yōu)化交通流量這一事實(shí),對所有公共機(jī)構(gòu)來說都是一個光輝的榜樣。他們現(xiàn)在更好地理解到,你可以極大地改善對公民的服務(wù)。簡而言之:這些成功案例令人信服地表明,大數(shù)據(jù)預(yù)測分析可以區(qū)分愚蠢的組織和聰明的組織,區(qū)分失敗者和成功者。
違法和不良信息舉報投訴電話:0377-62377728 舉報郵箱:fbypt@ex12580.com
網(wǎng)絡(luò)警察提醒你 a> 中國互聯(lián)網(wǎng)舉報中心 網(wǎng)絡(luò)舉報APP下載 掃黃打非網(wǎng)舉報專區(qū)