国产精品chinese,色综合天天综合精品网国产在线,成午夜免费视频在线观看,清纯女学生被强行糟蹋小说

    <td id="ojr13"><tr id="ojr13"><label id="ojr13"></label></tr></td>
        • <source id="ojr13"></source>
            <td id="ojr13"><ins id="ojr13"><label id="ojr13"></label></ins></td>

            Article / 文章中心

            數(shù)據(jù)倉(cāng)庫(kù)-大數(shù)據(jù)分析

            發(fā)布時(shí)間:2021-12-10 點(diǎn)擊數(shù):736

            一. 大數(shù)據(jù)概覽

             什么是大數(shù)據(jù) ?所謂的 “大” 實(shí)踐上并不是大數(shù)據(jù)的最有趣的特征 。大數(shù)據(jù)是結(jié)構(gòu)化、 半結(jié)構(gòu)化、非結(jié)構(gòu)化以及眾多不同格局的原始數(shù)據(jù) ,某些狀況下 ,它看起來(lái)與您 30 多年來(lái) 在數(shù)據(jù)倉(cāng)庫(kù) 中存儲(chǔ)的清楚的標(biāo)量數(shù)字和文本存在巨大差異 。大都大數(shù)據(jù)不能用任何看起來(lái) 相似 SQL 的辦法來(lái)剖析 。但最重要的是 ,大數(shù)據(jù)是一種模式的轉(zhuǎn)變 ,觸及怎么考慮數(shù)據(jù)財(cái)物、從何處獲取 、怎么剖析它們以及怎么從剖析中取得有價(jià)值的常識(shí) 。

             從很多的用例中積聚了動(dòng)力的大數(shù)據(jù)運(yùn)動(dòng),可劃分到大數(shù)據(jù)剖析的類別中 。這些用例 包括:

            ? 搜索排序

            ? 廣告盯梢

            ? 方位與距離盯梢

            ? 因果聯(lián)系發(fā)現(xiàn)

            ? 社會(huì)化客戶聯(lián)系辦理(CRM)

            ? 文檔相似性測(cè)驗(yàn)

            ? 基因剖析

            ? 群組發(fā)現(xiàn)

            ? 飛機(jī)飛行狀況

            ? 智能丈量?jī)x表

            ? 樹立傳感器

            ? 衛(wèi)星圖畫剖析

            ? CAT掃描比較

            ? 金融賬戶詐騙檢測(cè)與干預(yù)

            ? 核算機(jī)體系黑客檢測(cè)與干預(yù)

            ? 在線游戲姿態(tài)盯梢

            ? 大型科學(xué)數(shù)據(jù)剖析

            ? 通用稱號(hào)值對(duì)剖析

            ? 貸款風(fēng)險(xiǎn)剖析及保單承保剖析

            ? 客戶流失剖析


             考慮到潛在用例的廣泛程度 ,本章首要關(guān)注處理大數(shù)據(jù)的結(jié)構(gòu)化辦法 ,以及咱們引薦 運(yùn)用的最佳實(shí)踐 ,并不專門考慮每個(gè)用例的維度規(guī)劃 。


             傳統(tǒng)的 RDBMS 和 SQL 幾乎無(wú)法存儲(chǔ)或剖析此類規(guī)模廣泛的用例 。要完結(jié)對(duì)大數(shù)據(jù)的歸納處理 ,體系需求具有如下才能 :

            (1) 便利處理 PB(1000TB)數(shù)據(jù)的才能 。

            (2) 包括多達(dá)數(shù)千個(gè)散布的處理器,地理不同,且異構(gòu) 。

            (3) 以原始的獲取格局存儲(chǔ)數(shù)據(jù),支撐查詢和剖析運(yùn)用而不需求轉(zhuǎn)化或移動(dòng)數(shù)據(jù) 。

            (4) 以亞秒級(jí)呼應(yīng)時(shí)刻呼應(yīng)高束縛的規(guī)范 SQL 查詢。

            (5) 在處理懇求中便利地嵌入雜亂的用 戶自界說函數(shù) (User-Defined Function , UDF) 。

            (6) 選用業(yè)界規(guī)范的進(jìn)程語(yǔ) 言來(lái)完結(jié) UDF 。

            (7) 拼裝跨大都或一切用例的可重用 UDF 擴(kuò)展庫(kù)。

            (8) 在幾分鐘內(nèi) ,以聯(lián)系掃描辦法對(duì) PB 等級(jí)數(shù)據(jù)集履行用戶自界說函數(shù) 。

            (9) 支撐規(guī)模廣泛的數(shù)據(jù)類型包括越來(lái)越多的圖畫 、波形 、恣意層次的數(shù)據(jù)結(jié)構(gòu)以及 稱號(hào) 值對(duì)調(diào)集 。

            (10) 為數(shù)據(jù)剖析高速加載數(shù)據(jù) ,至少到達(dá) GB 等級(jí)每秒。

            (11) 從多個(gè)數(shù)據(jù)源高速(GB/sec)加載數(shù)據(jù)以集成數(shù)據(jù)。

            (12) 在界說或發(fā)現(xiàn)其結(jié)構(gòu)前加載數(shù)據(jù) 至數(shù)據(jù)庫(kù)。

            (13) 完結(jié)對(duì)加載數(shù)據(jù)的實(shí)時(shí)數(shù)據(jù)流剖析查詢 。

            (14) 全速更新數(shù)據(jù) 。

            (15) 不用預(yù)先聚類維度表和實(shí)踐表 ,完結(jié) 卡億等級(jí)的維度表與萬(wàn)億等級(jí)實(shí)踐表的銜接 。

            (16) 調(diào)度和履行雜亂的上百個(gè)節(jié)點(diǎn)的 作業(yè)流。

            (17) 配置作業(yè)不會(huì)受到單點(diǎn)故障的影響 。

            (18) 在節(jié)點(diǎn)發(fā)生過錯(cuò)時(shí)可以完結(jié)容錯(cuò)和不間斷進(jìn)程 。

            (19) 支撐極端的 、混合的作業(yè)負(fù)載 ,包括數(shù)千個(gè)地理散布的在線用戶和程序,一同履行即席查詢和戰(zhàn)略剖析,以批處理和流處理辦法加載數(shù)據(jù) 。


             為完結(jié)這些具有應(yīng)戰(zhàn)性的問題 ,需求將兩種結(jié)構(gòu)交融 ,這兩種結(jié)構(gòu)是 :擴(kuò)展的 RDBMS和 MapReduce/Hadoop 。


            1.1 擴(kuò)展的 RDBMS 結(jié)構(gòu)

             當(dāng)時(shí) RDBMS 供給商對(duì)經(jīng)典的聯(lián)系數(shù)據(jù)類型進(jìn)行了擴(kuò)展 ,添加了一些處理大數(shù)據(jù)需求的新數(shù)據(jù)類型,如下圖所示:

            f7c90652bebf7b4afae3c198dd3fe3f7.png


             現(xiàn)在的 RDBMS 有必要擴(kuò)展以便可以加載和處理包括雜亂結(jié)構(gòu)的廣泛的數(shù)據(jù)類型 ,例如向量、矩陣和自界說超結(jié)構(gòu)數(shù)據(jù) 。RDBMS 需求支撐加載和處理無(wú)結(jié)構(gòu)和半結(jié)構(gòu)文本 ,以及圖畫、視頻、稱號(hào),值對(duì)調(diào)集 ,有時(shí)將其稱為 數(shù)據(jù)包。


             可是支撐相似 “ 二進(jìn)制大數(shù)據(jù)文件” 這樣的只是可以在可解釋這些數(shù)據(jù)的 BI運(yùn)用之后 交給的新數(shù)據(jù)類型 ,對(duì)RDBMS 來(lái)說仍然是不夠充沛的 。要真實(shí)具有大數(shù)據(jù) ,RDBMS 有必要答應(yīng)在數(shù)據(jù)庫(kù)辦理體系內(nèi)部循環(huán)中 ,運(yùn)用特定的由事務(wù)用戶剖析人員編寫的用戶自界說函 數(shù)(UDF)處理新數(shù)據(jù)類型 。


             終究 ,有意義的用例是通過 RDBMS 處理數(shù)據(jù)兩遍,第 1 遍通過 RDBMS 從原始數(shù)據(jù) 中獲取實(shí)踐,第2 遍將獲取的成果作為傳統(tǒng)的聯(lián)系行 、列和數(shù)據(jù)類型,主動(dòng)反應(yīng)到RDBMS 。


            1.2 MapReduce/Hadoop 結(jié)構(gòu)

             另外一種結(jié)構(gòu)是 MapReduce/Hadoop 結(jié)構(gòu),它是一種敞開源代碼的 ,包括定量組件的 Apache尖端項(xiàng)目 。MapReduce 是一種 由 Google 在 2000 年初開發(fā)的處理結(jié)構(gòu) ,首要用于從很多不同機(jī)器中搜索 Web 頁(yè)面 。MapReduce 辦法具有良好的通用性 。完好的 MapReduce 體系可以用多種言語(yǔ)完結(jié) ,最著名 的完結(jié)是通過 Java 完結(jié)的 。MapReduce 實(shí)踐上是一種 UDF 擴(kuò)展結(jié)構(gòu) ,其中的 “ 函數(shù)” 可 以非常雜亂 ?,F(xiàn)在最常見的 MapReduce 結(jié)構(gòu)是 Apache Hadoop ,簡(jiǎn)稱為 Hadoop 。  Hadoop 項(xiàng)目有很多的參加者 ,并運(yùn)用于一切的運(yùn)用中 。Hadoop 運(yùn)轉(zhuǎn)在其 Hadoop 散布式文件體系 (Hadoop Distributed Fi le System, HDFS)之上 ,也可以被 Amazon S3 和其他體系所理解 。傳統(tǒng)的數(shù)據(jù)庫(kù)供給商完結(jié)了與 Hadoop 的接口,答應(yīng)很多的Hadoop 使命通過接口在其數(shù)據(jù)庫(kù)之上運(yùn)轉(zhuǎn)很多的散布式實(shí)例。


            留意:

             關(guān)于MapReduce/Hadoop 結(jié)構(gòu)更詳細(xì)的評(píng)論已超出了本書的規(guī)模 。有愛好的讀者可以拜訪網(wǎng)站 www.kimballgroup.com ,以取得更多有 關(guān) 大數(shù)據(jù)的資源 。


            1.3 大數(shù)據(jù)結(jié)構(gòu)比較

             上述兩種大數(shù)據(jù)結(jié)構(gòu)都有不同的長(zhǎng)時(shí)刻優(yōu)勢(shì) ,并有或許在未來(lái)共存 。在本書寫作時(shí) ,兩 種結(jié)構(gòu)的特征可 以通過下表匯總。

            a714162fbbee2a5a3aa56b120abfb877.png


            二. 引薦的運(yùn)用于大數(shù)據(jù)的最佳實(shí)踐

             雖然大數(shù)據(jù)商場(chǎng)尚不成熟 ,但從職業(yè)來(lái)看己經(jīng)具有 10 年的經(jīng)驗(yàn)積累 。在這段時(shí)刻 ,發(fā)生了很多針對(duì)大數(shù)據(jù)的最佳實(shí)踐 。本節(jié)企圖將這些最佳實(shí)踐介紹給讀者 ,在高級(jí)的專 家告誡與針對(duì)單 一東西的草根等級(jí)的細(xì)枝末節(jié)之間開辟 一個(gè)中心地帶 。


             話雖如此,還是應(yīng)該認(rèn)識(shí)到 ,30 年來(lái) ,針對(duì)與大數(shù)據(jù)有關(guān) 的聯(lián)系型數(shù)據(jù)倉(cāng)庫(kù)的規(guī)劃開 發(fā)提出了許多通過實(shí)踐檢測(cè)的最佳實(shí)踐 。以下簡(jiǎn)略將它們列舉出來(lái):

            ? 從事務(wù)需求動(dòng)身挑選構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)需求的數(shù)據(jù)源 。

            ? 一直關(guān)注簡(jiǎn)化用戶接口和改善功用。

            ? 從維度視點(diǎn)考慮問題 :將國(guó)際劃分為維度和實(shí)踐 。

            ? 以一致性維度集成不同的數(shù)據(jù)源 。

            ? 運(yùn)用緩慢改動(dòng)維度盯梢時(shí)刻 改動(dòng)。

            ? 運(yùn)用持久性署理鍵確定一切維度 。


            本節(jié)以下內(nèi)容 ,咱們將依照 4 個(gè)分類劃分大數(shù)據(jù)最佳實(shí)踐:辦理、結(jié)構(gòu)、數(shù)據(jù)建模和 辦理。


            2.1 面向大數(shù)據(jù)辦理的最佳實(shí)踐

             下列最佳實(shí)踐運(yùn)用于大數(shù)據(jù)環(huán)境的全體辦理 。


            圍繞剖析構(gòu)建大數(shù)據(jù)環(huán)境

             考慮圍繞剖析而不是即席查詢或規(guī)范報(bào)表構(gòu)建大數(shù)據(jù)環(huán)境 。從原始來(lái)歷到剖析師屏幕這一數(shù)據(jù)途徑上的每個(gè)過程有必要支撐將雜亂的剖析例程以UDF辦法或通過元數(shù)據(jù)驅(qū)動(dòng)的可以為一切剖析類型編程的開發(fā)環(huán)境來(lái)完結(jié) 。其內(nèi)容包括加載 、清洗、集成 、用戶接口,以 及終究的 BI 東西。


            推遲構(gòu)建留傳環(huán)境

             此刻企圖樹立留傳大數(shù)據(jù)環(huán)境不是好的想法 。大數(shù)據(jù)環(huán)境改動(dòng)太快而無(wú)法考慮樹立一個(gè)長(zhǎng)時(shí)刻的留傳基礎(chǔ) 。相反,應(yīng)該從各個(gè)方面規(guī)劃革命性的革新 :新數(shù)據(jù)類型 、競(jìng)賽應(yīng)戰(zhàn) 、 編程辦法 、硬件、網(wǎng)絡(luò)技能,以及由很多新型大數(shù)據(jù)供給者供給的服務(wù) 。在可預(yù)見的未來(lái) , 需求保護(hù)多種完結(jié)辦法的共存 。這些完結(jié)辦法包括 Hadoop 、傳統(tǒng)網(wǎng)格核算、優(yōu)化的 RDBMS 、 定制核算 、云核算和大型機(jī) 。久遠(yuǎn)來(lái)看 ,每種辦法都難以獨(dú)占整頭 ,渠道即服務(wù)(Platform asa Service, PaaS)供給商一般供給有吸引力的挑選 ,用于裝配可兼容的東西調(diào)集 。

             設(shè)想將 Hadoop 作為多種格局 ETL 處理的靈敏及通用的環(huán)境 ,目的是為大數(shù)據(jù)添加充 分的結(jié)構(gòu)和環(huán)境 ,以便可以加載到 RDBMS 中。Hadoop 中相同的數(shù)據(jù)可以被拜訪并轉(zhuǎn)化為以各種言語(yǔ)編寫的 Hive、Pig 、HBase 和 MapReduce 代碼 ,乃至可以一同進(jìn)行。

             完結(jié)上述目標(biāo)需求具有靈敏性 。假定您可以在兩年內(nèi)從頭編寫并從頭布置大數(shù)據(jù)運(yùn)用。挑選恰當(dāng)?shù)霓k法以從頭編程并布置 。可以考慮運(yùn)用元數(shù)據(jù)驅(qū)動(dòng)的無(wú)代碼開發(fā)環(huán)境以增 加效率井有助于阻隔根本 技能改動(dòng)所帶來(lái)的問題 。


            從沙箱成果中構(gòu)建

             考慮運(yùn)用沙箱 ,并樹立實(shí)踐可用的沙箱成果 。答應(yīng)數(shù)據(jù)科學(xué)家構(gòu)建他們的數(shù)據(jù)環(huán)境并 運(yùn)用他們了解的言語(yǔ)和編程環(huán)境構(gòu)建原型 。然后,完結(jié)概念證明后 ,與某個(gè) IT 更新小組體系化地從頭編寫這些完結(jié)。以下將運(yùn)用一系列事例描述這 一主張:

             自界說剖析編程的出產(chǎn)環(huán)境可以是 MatLab 和 PostgreSQL ,或許是 SAS 和Teradata RDBMS, 但數(shù)據(jù)科學(xué)家或許運(yùn)用其了解的語(yǔ) 言和結(jié)構(gòu)樹立其概念證明 。要害的常識(shí)是 :IT 有必要非同小可地容忍數(shù)據(jù)科學(xué)家所運(yùn)用的技能范疇并在大都狀況下需求預(yù)備以可以被長(zhǎng)時(shí)刻支撐的規(guī)范技能集從頭完結(jié)數(shù)據(jù)科學(xué)家的作業(yè) 。沙箱開發(fā)環(huán)境或許會(huì)運(yùn)用自界說R代碼直接拜訪Hadoop ,但由元數(shù)據(jù)驅(qū)動(dòng)的 ETL 東西所操控。然后 ,當(dāng)數(shù)據(jù)科學(xué)家預(yù)備交給概念證明時(shí) , 大都邏輯或許需求立 即被從頭布置到可擴(kuò)展的 、高度可用的 、安全的 、運(yùn)轉(zhuǎn)于網(wǎng)格環(huán)境中 的 ETL 東西。


            首先從嘗試簡(jiǎn)略運(yùn)用著手

             可以先從簡(jiǎn)略的運(yùn)用開 始,例如備份與歸檔 。在開端履行大數(shù)據(jù)項(xiàng)目時(shí) ,搜索有價(jià)值的、風(fēng)險(xiǎn)小的商業(yè)用例 ,貯備必要的大數(shù)據(jù)技能 ,考慮運(yùn)用 Hadoop 作為本錢低 、靈敏的備份和歸檔技能 。Hadoop 可以存儲(chǔ)和檢索多種格局的數(shù)據(jù) ,從徹底非結(jié)構(gòu)化的到高度結(jié)構(gòu)化的專用格局 。該辦法還能確保解決落日問題,所謂落日問題是指原先的運(yùn)用或許在悠遠(yuǎn)的未來(lái)變得不可用(也許由于授權(quán)約束) ,您可以將這些運(yùn)用 的數(shù)據(jù)轉(zhuǎn)儲(chǔ)到您的文件格局中 。


            2.2 面向大數(shù)據(jù)結(jié)構(gòu)的最佳實(shí)踐

             下列最佳實(shí)踐將影 響整個(gè)大數(shù)據(jù)環(huán)境的結(jié)構(gòu)和安排 。

            868338a28fc7dd04f0ff5d666f2e5eb5.png

            規(guī)劃數(shù)據(jù)通道

             應(yīng)該為邏輯數(shù)據(jù)通道規(guī)劃多個(gè)添加推遲的緩存 。只是物理上完結(jié)那些合適您的環(huán)境的緩存 。數(shù)據(jù)通路可以包括多達(dá) 5 個(gè)緩存以添加數(shù)據(jù)推遲 ,每個(gè)緩存都具有共同的優(yōu)點(diǎn)和權(quán)衡,如下圖所示。


             以下是 5 個(gè)數(shù)據(jù)緩存的潛在的示例:

            ? 原始來(lái)歷運(yùn)用:信用卡詐騙檢測(cè) ,實(shí)時(shí)雜亂作業(yè)處理(Complex Event Processing , CEP),包括網(wǎng)絡(luò)穩(wěn)定性和網(wǎng)絡(luò)攻擊檢測(cè) 。

            ? 實(shí)時(shí)運(yùn)用 :Web 頁(yè)廣告挑選 ,個(gè)性化價(jià)格促銷 ,在線游戲監(jiān)控 。

            ? 事務(wù)活動(dòng)運(yùn)用 :推送給用戶的低延時(shí)要害功用目標(biāo)(KPI)儀表板 ,費(fèi)事盯梢 ,進(jìn)程完結(jié)盯梢 ,歸納 CEP 報(bào)表 ,客戶服務(wù)門戶與儀表板 ,汽車銷售廣告 。

            ? 優(yōu)先運(yùn)用 :戰(zhàn)術(shù)報(bào)表 ,促銷盯梢 ,根據(jù)社會(huì)媒體聲響的中途批改 。優(yōu)先運(yùn)用指高 級(jí)辦理人員可以快速調(diào)查到 24 小時(shí)內(nèi)企業(yè)發(fā)生的最重要狀況的公共實(shí)踐 。

            ? 數(shù)據(jù)倉(cāng)庫(kù)和長(zhǎng)時(shí)刻序列運(yùn)用 :一切格局的報(bào)表 ,即席查詢,前史剖析 ,主數(shù)據(jù)管 理,大容量時(shí)刻動(dòng)態(tài) ,馬爾科夫鏈剖析 。


             存在于給定環(huán)境中的每個(gè)緩存物理上不同于其他緩存 。從原始來(lái)歷取得的數(shù)據(jù),沿著這條通道通過 ETL 進(jìn)程 。從原始數(shù)據(jù)來(lái)歷到中心緩存或許存在多條途徑。例如 ,數(shù)據(jù)或許會(huì)在實(shí)時(shí)緩存驅(qū)動(dòng)某個(gè)零推遲類型用戶接口 ,但一同被直接獲取到看起來(lái)像經(jīng)典的操作型數(shù)據(jù)存儲(chǔ)(Operational Data Store, ODS)的每日優(yōu)先緩存 。然后 ODS 數(shù)據(jù)或許被用于構(gòu)建數(shù)據(jù)倉(cāng)庫(kù) 。數(shù)據(jù)也可以沿著通路的相反方向運(yùn)動(dòng) 。本章后邊將評(píng)論回流的完結(jié)。


             運(yùn)動(dòng)于該通路的大都數(shù)據(jù)有必要堅(jiān)持非聯(lián)系格局,包括非結(jié)構(gòu)化文本和雜亂的多格局?jǐn)?shù)據(jù) ,例如圖畫 、數(shù)組 、圖、銜接 、矩陣以及稱號(hào)-值對(duì)集 。


            樹立針對(duì)大數(shù)據(jù)的實(shí)踐獲取器

             將大數(shù)據(jù)剖析作為一個(gè)實(shí)踐獲取器 ,將數(shù)據(jù)移動(dòng)到下一個(gè)緩存 ,這是一個(gè)非常好的想法 。例如,非結(jié)構(gòu)文本信息的剖析可以發(fā)生很大都字化的、有趨向的情感度量,包括聲響的同享、觀眾參加 、會(huì)話抵達(dá) 、積極的倡導(dǎo)者 、主張的影響、支撐影響、分辨率 、分辨時(shí)刻、滿意度 、主題趨勢(shì)、情感比例和觀念影響等 。


            樹立完好的生態(tài)體系

             可以運(yùn)用大數(shù)據(jù)集成樹立完好的生態(tài)體系 ,集成傳統(tǒng)的結(jié)構(gòu)化的 RDBMS數(shù)據(jù)、文檔、 電子郵件,以及內(nèi)部的面向事務(wù)的社會(huì)網(wǎng)絡(luò) 。來(lái)自大數(shù)據(jù)的有用信息之一是集成不同格局的不同的數(shù)據(jù)源 。可以重新數(shù)據(jù)制造通道取得數(shù)據(jù)流 ,例如社會(huì)網(wǎng)絡(luò)、移動(dòng)設(shè)備和主動(dòng)提醒處理 。假定某個(gè)大型金融機(jī)構(gòu)處理幾百萬(wàn)賬戶 ,與之相關(guān)的紙質(zhì)文檔數(shù)千萬(wàn) ,安排內(nèi)部包括數(shù)千專業(yè)人員以及該范疇的合作伙伴和用戶 。現(xiàn)在 ,為一切受到信賴的集體樹立一個(gè)安全的社會(huì)網(wǎng)絡(luò) 以進(jìn)行通訊已經(jīng)成為實(shí)踐的運(yùn)用 。大都此類通訊明顯都 需求以可查詢的辦法存儲(chǔ) ??梢栽?Hadoop 中獲取此類信息 ,在事務(wù)中運(yùn)用它們,然后對(duì)其備份并歸檔 。


            4 . 擬定數(shù)據(jù)質(zhì)量規(guī)劃

             可以對(duì)數(shù)據(jù)質(zhì)量擬定規(guī)劃以更好地運(yùn)用于數(shù)據(jù)通道中 。這是一種典型的針對(duì)推遲與質(zhì)量的權(quán)衡。剖析員和用戶有必要接 受非常低推遲的(也就是說 ,實(shí)時(shí))數(shù)據(jù)所形成的不可防止會(huì)出現(xiàn)的臟數(shù)據(jù)的實(shí)踐。由于非常短的時(shí)刻距離約束了清洗和確診作業(yè) 。針對(duì)獨(dú)立字段內(nèi) 容的測(cè)驗(yàn)和糾正可以以最快的數(shù)據(jù)轉(zhuǎn)化率履行 。針對(duì)字段和跨數(shù)據(jù)源的結(jié)構(gòu)化聯(lián)系的測(cè)驗(yàn) 和糾正需求花費(fèi)很多時(shí) 間。測(cè)驗(yàn)和糾正觸及從瞬時(shí) (例如必定次序的日期調(diào)集)到恣意長(zhǎng)時(shí)刻(例如等候調(diào)查某 個(gè)非尋常作業(yè)是否超越門檻值)的雜亂事務(wù)規(guī)矩 。終究 ,緩慢的 ETL 工 程 ,例如那些需求滿意每日 優(yōu)先緩存的處理,一般根據(jù)更完好的數(shù)據(jù)樹立 ,例如 ,不完好的事務(wù)集與回絕事務(wù)集將被刪去 。此刻 ,簡(jiǎn)略取得的瞬時(shí)數(shù)據(jù)一般是過錯(cuò)的信息 。


            盡或許提高數(shù)據(jù)價(jià)值

             應(yīng)該盡或許早地在切入點(diǎn)運(yùn)用過濾 、清洗、剪枝 、一致性 、匹配、銜接和確診等 。這是前述最佳實(shí)踐的必然成果 。數(shù)據(jù)通道中每個(gè)過程供給了更多時(shí)刻來(lái)提高數(shù)據(jù)價(jià)值 。針對(duì)數(shù)據(jù)的過濾 、清洗 、剪枝等操作減少遷移到下一個(gè)緩存的數(shù)量并消除不相關(guān)或損壞的數(shù)據(jù) 。 公平地說 ,很多人認(rèn)為只需求在剖析運(yùn)轉(zhuǎn)階段運(yùn)用清洗邏輯 ,由于清洗或許會(huì)刪去了 “ 有 趣的孤立點(diǎn) ”。一致性 以積極的過程將高度可辦理 的企業(yè)特點(diǎn)放入到首要的實(shí)體中,例如客戶、產(chǎn)品和日期等 。這些一致性特點(diǎn)的存在 答應(yīng)在不同運(yùn)用范疇履行高價(jià)值的銜接 。該過程的簡(jiǎn)短稱號(hào)是 “ 集成 !” 確診答應(yīng)將許多有趣 的特點(diǎn)添加到數(shù)據(jù)中 ,包括特定信賴度標(biāo)識(shí) 和由數(shù)據(jù)發(fā)掘?qū)I(yè)人員辨認(rèn)的表明行為聚類的文本標(biāo)識(shí)符 。


            完結(jié)前期緩存的回流

             應(yīng)當(dāng)完結(jié)回流 ,特別是從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)高速路上前期的緩存 。數(shù)據(jù)倉(cāng)庫(kù)中高度可辦理的維度,例如客戶 、產(chǎn)品和日期,應(yīng)當(dāng)與前期緩存中的數(shù)據(jù)銜接 。抱負(fù)狀況下 ,所需求的是在一切緩存中的這些實(shí)體的僅有持久性鍵 。此處的推論是,從一個(gè)緩存到下一個(gè)緩存的每個(gè) ETL 過程的首要作業(yè)是用具有僅有性的持久鍵替換特定的專用鍵 ,以便每個(gè)緩存的剖析可以通過與僅有性持久鍵的簡(jiǎn)略銜接來(lái)運(yùn)用豐富的上游內(nèi)容 。這一 ETL 過程能將行源 數(shù)據(jù) 以低于 1 秒的時(shí)刻轉(zhuǎn)化到實(shí)時(shí)緩存中履行嗎 ?也許能 。

             維度數(shù)據(jù)并不是 僅有將通過高速路回流到源的數(shù)據(jù) 。從實(shí)踐表導(dǎo)出的數(shù)據(jù) ,例如前史匯總和雜亂的數(shù)據(jù)發(fā)掘成果,可以被當(dāng)成簡(jiǎn)略的目標(biāo)或匯總傳達(dá) ,然后傳送到數(shù)據(jù)高速路 上的前期緩存中。


            完結(jié)數(shù)據(jù)流

             您應(yīng)當(dāng)針對(duì)挑選的數(shù)據(jù)流完結(jié)流式數(shù)據(jù)剖析 。低推遲數(shù)據(jù)的 一個(gè)有趣的方面是需求針對(duì)流中的數(shù)據(jù)開端嚴(yán)格的剖析 ,可是或許需求在數(shù)據(jù)轉(zhuǎn)化進(jìn)程完畢前 。對(duì)流剖析體系的愛好非常強(qiáng)烈 ,答應(yīng)履行相似 SQL 查詢處理流中的數(shù)據(jù)。在某些用例中,當(dāng)流查詢的成果超越某個(gè)闊值時(shí) ,將停止剖析作業(yè) ,不需求將使命履行完 。一種學(xué)術(shù)方面的作業(yè) ,被稱為連續(xù)查詢言語(yǔ)(Continuous Query Language, CQL) ,現(xiàn)在在界說流數(shù)據(jù)處理需求方面己取得了 引人注目的成果 ,包括在流數(shù)據(jù)中動(dòng)態(tài)移動(dòng)時(shí)刻窗口的智能化的語(yǔ)義 。在 DBMS 和 HDFS 的加載程序中運(yùn)用 CQL 言語(yǔ)擴(kuò)展和流數(shù)據(jù)查詢才能布置數(shù)據(jù)調(diào)集 。抱負(fù)的完結(jié)既能展開流 數(shù)據(jù)剖析作業(yè) ,又能以每秒幾 GB 的速度加載數(shù)據(jù) 。


            防止無(wú)法擴(kuò)展的約束

             您應(yīng)當(dāng)完結(jié)強(qiáng)壯的可擴(kuò)展才能以防止到達(dá)擴(kuò)展的極限 。在前期核算機(jī)編程時(shí) ,那時(shí)機(jī)器的硬盤和實(shí)踐的內(nèi)存都很小 ,邊界抵觸比較常見 ,是運(yùn)用開發(fā)中令人煩惱的作業(yè) 。當(dāng)應(yīng) 用用盡了磁盤空間或?qū)嵺`內(nèi)存時(shí) ,開發(fā)者需求采納詳細(xì)的辦法 ,一般需求很多的編程作業(yè) , 這些作業(yè)并未增強(qiáng)運(yùn)用的首要功用 。一般的數(shù)據(jù)庫(kù)運(yùn)用的邊界抵觸己經(jīng)沒有什么問題了 , 可是大數(shù)據(jù)再次將這 一問題面向前臺(tái) 。  Hadoop 是一種極大地減少了編程可擴(kuò)展性問題的結(jié)構(gòu),由于在大大都狀況下 ,可以無(wú)約束地添加商業(yè)化硬件 。當(dāng)然,即便是商業(yè)化硬件也需 要配置 、銜接和具有高帶寬的網(wǎng)絡(luò)銜接 。需求為未來(lái)規(guī)劃這一問題,要可以擴(kuò)展到巨大的 容量和吞吐率 。


            將原型移動(dòng)到私有云

             考慮在公有云上完結(jié)大數(shù)據(jù)原型然后將其移動(dòng)到私有云上 。公有云的優(yōu)點(diǎn)是具有可配置才能和當(dāng)即擴(kuò)展的才能。對(duì)那些存在數(shù)據(jù)敏感性問題需求快速進(jìn)出的原型 ,公有云非常有用 。記住在周末程序員們都脫離的狀況下 ,不要讓巨大的數(shù)據(jù)集在公有云在線可用 。但是,需求記住的是 ,某些狀況下 ,當(dāng)您企圖運(yùn)用局部數(shù)據(jù)及可預(yù)知機(jī)架的 MapReduce 進(jìn)程 時(shí),可以不運(yùn)用公有云服務(wù) ,由于它不存在對(duì)數(shù)據(jù)存儲(chǔ)操控的需求 。


            極力改善功用

             不斷尋找并期望得到十倍到百倍的功用改善 ,認(rèn)識(shí)那些可以提高 剖析速度的事例 。大數(shù)據(jù)商場(chǎng)的敞開將遇到很多的特定目標(biāo),這些目標(biāo)與特定剖析的解決方案緊緊相關(guān) 。這既帶來(lái)優(yōu)點(diǎn) ,也存在問題 。假如未受到大型供給商的 RDBMS 優(yōu)化器和內(nèi)部循環(huán)的操控 ,聰明的開發(fā)人員可以完結(jié)詳細(xì)的比規(guī)范技能快 100 倍的解決方案。例如 ,針對(duì)臭名遠(yuǎn)揚(yáng)的“ 大型銜接” 操作方面 ,取得了一些令人激動(dòng)的前進(jìn) 。這些大型銜接需求將具有 10 億行的維度 與一個(gè)包括 10 000 億行的實(shí)踐表銜接 。存在的困難是這些單獨(dú)的特定解決方案或許不是統(tǒng) 一的體系結(jié)構(gòu)中的一部分。

             當(dāng)時(shí)非常重要的一個(gè)大數(shù)據(jù)主題是數(shù)據(jù)調(diào)集的可視化 ?!皣@” PB 等級(jí)的數(shù)據(jù)需求特 殊的功用 !大數(shù)據(jù)可視化是一個(gè)令人激動(dòng)的新開發(fā)范疇 ,運(yùn)用它可保證剖析和發(fā)現(xiàn)不知道特征以及數(shù)據(jù)剖析 。

             另外一個(gè)令人激動(dòng)的將帶來(lái)巨大功用需求的運(yùn)用是 “ 不需求預(yù)先集合的語(yǔ)義縮放” , 剖析師可以剖析非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的高度集合的等級(jí)直到逐步細(xì)節(jié)化的層次 ,相似于在圖上縮放 。

             該最佳實(shí)踐之后隱藏的重要課題是您具有的具有剖析和運(yùn)用大數(shù)據(jù)的革命性前進(jìn)的 才能將帶來(lái) 10-100 倍的功用增益 ,您需求為東西套件預(yù)備這些開發(fā)才能 。


            監(jiān)視核算資源

             應(yīng)當(dāng)將大數(shù)據(jù)剖析作業(yè)與傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)分隔以堅(jiān)持服務(wù)等級(jí)的協(xié)議 。假如大數(shù)據(jù)駐留在 Hadoop 上,則或許不會(huì)與傳統(tǒng)的根據(jù) RDBMS 的數(shù)據(jù)倉(cāng)庫(kù)競(jìng)賽資源 。但是 ,假如大數(shù)據(jù)剖析運(yùn)轉(zhuǎn)在數(shù)據(jù)倉(cāng)庫(kù)機(jī)器上 ,則要引起高度的留意 ,由于大數(shù)據(jù)需求改動(dòng)快速且對(duì)計(jì) 算資源的需求不斷增加這 一趨勢(shì)是不可防止的 。


            運(yùn)用內(nèi)置數(shù)據(jù)庫(kù)剖析

             記住要運(yùn)用內(nèi)置數(shù)據(jù)庫(kù)剖析的共同才能 。首要的 RDBMS 廠商都在 內(nèi)置數(shù)據(jù)庫(kù)剖析方面投入巨大 。在您花費(fèi)很多本錢將數(shù)據(jù)加載到聯(lián)系數(shù)據(jù)庫(kù)表中后 ,可 以對(duì) SQL與剖析擴(kuò)展兼并 ,取得極其強(qiáng)壯的才能 。特別是 PostgreSQL ,它是一種敞開源數(shù)據(jù)庫(kù) ,包括的擴(kuò)展語(yǔ)法可用于在內(nèi)循環(huán)中添加強(qiáng)壯的用戶界說功用 。


            2.3 運(yùn)用于大數(shù)據(jù)的數(shù)據(jù)建模最佳實(shí)踐

            以下最佳實(shí)踐影響數(shù)據(jù)的邏輯和物理結(jié)構(gòu) 。


            維度考慮

             從維度視點(diǎn)考慮 ,咱們將國(guó)際劃分為維度和實(shí)踐 。事務(wù)用戶可天然且直接地發(fā)現(xiàn)維度概念 。不管數(shù)據(jù)的辦法怎么 ,根本的相關(guān)實(shí)體 ,例如客戶 、產(chǎn)品 、服務(wù)、方位或時(shí)刻 ,都能被發(fā)現(xiàn)。在后續(xù)的最佳實(shí)踐中 ,通過一些訓(xùn)練 ,您將發(fā)現(xiàn)維度可用于集成數(shù)據(jù)源 。但在到達(dá)集成的終點(diǎn)線前,有必要辨認(rèn)每個(gè)數(shù)據(jù)源中的維度并將它們與每個(gè)低層的原子等級(jí)的數(shù) 據(jù)調(diào)查相關(guān)。這一維度化的進(jìn)程是大數(shù)據(jù)剖析的很好運(yùn)用 。例如 ,簡(jiǎn)略的推特語(yǔ)句 “ 哇 ! 這太可怕了 !” 也許沒有包括有價(jià)值的維度特性 ,可是在某些剖析中 ,您或許會(huì)得到客戶(或 市民或患者)、方位 、產(chǎn)品(或服務(wù)或合同或作業(yè))、商場(chǎng)條件 、供給商 、天氣、支撐者組(或 核算聚類)、會(huì)話、觸發(fā)從前的作業(yè) 、終究成果以及其他成果 。堅(jiān)持領(lǐng)先的數(shù)據(jù)流需求某些 辦法的主動(dòng)維度化 。正如咱們將 在后續(xù) 的最佳實(shí)踐中指出的那樣,輸入數(shù)據(jù)應(yīng)當(dāng)在最早的 獲取過程 中盡或許實(shí)時(shí)地被徹底維度化。


            集成不同的包括一致性維度的數(shù)據(jù)源

             一致性維度是將不同數(shù)據(jù)源捏合到一同的粘合劑 ,確保兼并不同的數(shù)據(jù)源并用于單一的剖析。一致性維度也許是大數(shù)據(jù)從傳統(tǒng)的 DW/BI 國(guó)際中可繼承的最強(qiáng)有力的最佳實(shí)踐 。

             隱藏在一致性維度之后的根本思想是維度不同版本中的一個(gè)或多個(gè)企業(yè)特點(diǎn) (字段)與不同數(shù)據(jù)源的相關(guān) 。例如 ,企業(yè)中每個(gè)面向客戶的進(jìn)程將包括一些改動(dòng)的客戶維度 ??蛻艟S度的這些改動(dòng)或許觸及不同的鍵,不同的字段界說,乃至不同的粒度 。即便數(shù)據(jù)不兼容的狀況非常明顯 ,一個(gè)或多個(gè)企業(yè)特點(diǎn)仍可被嵌入到所 有不同的客戶維度中 。例如 ,客戶核算分類是一個(gè)合理的挑選 。這類描述符可以被界說到差不多句個(gè)客戶維度中,即便在那些高等級(jí)的集合維度中。在完結(jié)該規(guī)劃后 ,針對(duì)這樣的客戶核算維度的剖析,可以在針對(duì)不同數(shù)據(jù)源分別運(yùn)轉(zhuǎn)不同的查詢后 ,.通過排序交融進(jìn)程跨多個(gè)數(shù)據(jù)源展開 。最好的狀況 1 引進(jìn)不同的企業(yè)特點(diǎn)到不同 的數(shù)據(jù)庫(kù)中的過程,增量的、靈敏的 、非破壞性的辦法完結(jié) 。當(dāng)一致性維度內(nèi)容可用后 ,一切己有的剖析運(yùn)用可以繼續(xù)運(yùn)轉(zhuǎn)。


            運(yùn)用持久性署理鍵定位維度

             假如說在數(shù)據(jù)倉(cāng)庫(kù)國(guó)際中包括一個(gè)咱們需求吸取的經(jīng)驗(yàn)的話 ,這個(gè)經(jīng)驗(yàn)就是,不是選用特定運(yùn)用所界說的天然鍵來(lái)定位客戶 、產(chǎn)品及時(shí)刻。這些天然鍵將成為實(shí)踐國(guó)際中 一個(gè) 哄人的騙局 。多個(gè)運(yùn)用之間的天然鍵是不兼容的且難于辦理 ,這些天然鍵是由那些不關(guān)心數(shù)據(jù)倉(cāng)庫(kù)運(yùn)用的其他人員所辦理的。在每個(gè)數(shù)據(jù)源中,首要的過程是運(yùn)用企業(yè)規(guī)模的持久性署理鍵來(lái)擴(kuò)展來(lái)自于源的天然鍵 。持久性的意思是事務(wù)規(guī)矩?zé)o法對(duì)該鍵做出改動(dòng) 。持久性鍵屬于 DW/BI 體系 ,而不屬于數(shù)據(jù)源 。署理意味著該鍵本身是簡(jiǎn)略的整數(shù),該數(shù)要么是按次序分配的 ,要么是通過可以保證唯 一性的強(qiáng)健的哈希算法樹立的 。孤立的署理鍵不觸及與運(yùn)用有關(guān)的內(nèi)容 ,它只是是一個(gè)標(biāo)識(shí)符 。

             大數(shù)據(jù)國(guó)際充滿了各式各樣的維度 ,這些維度有必要具有持久性署理鍵 。在本章前面的 內(nèi)容中,當(dāng)提出將數(shù)據(jù)推入數(shù)據(jù)高速公路時(shí) ,咱們依靠持久性署理鍵來(lái)完結(jié)這 一進(jìn)程 。我 們還指出 ,每個(gè)從源數(shù)據(jù)獲取的進(jìn)程 ,其首要的使命是在恰當(dāng)?shù)木S度中嵌入持久性署理鍵 。


            期望集成結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)

             大數(shù)據(jù)極大地拓寬了集成面對(duì)的應(yīng)戰(zhàn) 。許多大數(shù)據(jù)不會(huì)存儲(chǔ)在聯(lián)系數(shù)據(jù)庫(kù)中,一般會(huì)存儲(chǔ)在 Hadoop 或網(wǎng)格中 。但在您考慮并完結(jié)了 一致性維度和署理鍵后 ,在單一剖析中可 以剖析一切辦法的數(shù)據(jù) 。例如 ,醫(yī)學(xué)研討可以挑選 一組具有核算特征和身體狀況特點(diǎn)的病 人,然后將其傳統(tǒng)的 DW/BI 數(shù)據(jù)與圖畫數(shù)據(jù)(圖片 、X 射線影像 、心電圖等等)、自在文本 數(shù)據(jù)(醫(yī)囑)、社會(huì)前言的定見(治療主張) 、行列組分類(具有相似狀況的患者)以及 具有相似患者的醫(yī)師等信息兼并 。


            運(yùn)用緩慢改動(dòng)維度

             應(yīng)當(dāng)盯梢隨時(shí)刻改動(dòng)的 緩慢改動(dòng)維度(SCD)狀況 。盯梢維度 隨時(shí)刻改動(dòng)的狀況是一種 己有的受到廣泛贊譽(yù)的數(shù)據(jù)倉(cāng)庫(kù)國(guó)際中的最佳實(shí)踐 。第 5 章評(píng)論了運(yùn)用 SCD 技能處理時(shí)刻 差異的完好事例 。與在傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)國(guó)際中 相同 ,該技能在大數(shù)據(jù)國(guó)際中也非 常重要。


            在剖析時(shí)界說數(shù)據(jù)結(jié)構(gòu)

             您有必要習(xí)慣在剖析時(shí)界說數(shù)據(jù)結(jié)構(gòu) 。大數(shù)據(jù)的魅力之一是將數(shù)據(jù)結(jié)構(gòu)界說推遲到加載 到 Hadoop 或網(wǎng)格時(shí)進(jìn)行 。這樣做會(huì)帶來(lái)很多好 處。數(shù)據(jù)結(jié)構(gòu)在加載時(shí)髦未被理解 。數(shù)據(jù)具有如此富有改動(dòng)的內(nèi)容 ,以至于單一的數(shù)據(jù)結(jié)構(gòu)要么沒有意 義,要么迫使您修改數(shù)據(jù)以 合適某一結(jié)構(gòu) 。例如 ,假如可以將數(shù)據(jù)加載到 Hadoop ,不界說結(jié)構(gòu),則可以防止資源密集的過程。終究 ,不同的剖析師可以合法地以不同的辦法 看到相同的數(shù)據(jù)。當(dāng)然,某些狀況 下會(huì)存在一些問題 ,由于沒有清晰界說的結(jié)構(gòu)或許比較困難或許難以為 RDBMS 中快速查詢樹立索引。但是 ,大都大數(shù)據(jù)剖析算法處理完好的數(shù)據(jù)集 ,不需求精確地過濾數(shù)據(jù)子集 。

            這一最佳實(shí)踐與傳統(tǒng)的 RDBMS 辦法論抵觸,傳統(tǒng)辦法強(qiáng)調(diào)在加載前詳盡地建模數(shù)據(jù) 。 但這樣做不會(huì)導(dǎo)致發(fā)生喪命的抵觸。對(duì)那些將去往 RDBMS 中的數(shù)據(jù),從Hadoop 或網(wǎng)格環(huán)境或許從稱號(hào)值對(duì)結(jié)構(gòu)轉(zhuǎn)化到 RDBMS 命名列中可以當(dāng)作是有價(jià)值的 ETL 過程。


            以簡(jiǎn)略的稱號(hào)值對(duì)加載數(shù)據(jù)

             考慮圍繞稱號(hào)?值對(duì)數(shù)據(jù)源的樹立技能 。大數(shù)據(jù)源充滿驚喜 。大都狀況下 ,您翻開消防水管將發(fā)現(xiàn)意想不到的或未文檔化的數(shù)據(jù)內(nèi)容 ,雖然如此 ,您有必要以每秒幾 GB 的速度加載 。防止發(fā)生這一問題的辦法是以簡(jiǎn)略的稱號(hào),值對(duì)辦法加載數(shù)據(jù) 。例如 ,假如某個(gè)申請(qǐng)者暴露了其金融產(chǎn)業(yè) ,他或許會(huì)界說某些意想不到的作業(yè) ,例如 “ 稀有郵票 $ 1000 ”。在稱號(hào)值對(duì)數(shù)據(jù)會(huì)集 ,這一信息將被輕 松地加載 ,即便您決不會(huì)看見 “ 稀有郵票 ” 且不知道加載時(shí)會(huì)對(duì)其做些什么作業(yè) 。當(dāng)然,這一實(shí)踐與前述 的推遲到數(shù)據(jù) 加載時(shí)界說數(shù)據(jù)結(jié)構(gòu)的實(shí)踐結(jié)合得很好 。

             大都 MapReduce 編程環(huán)境需求將數(shù)據(jù)展現(xiàn)為稱號(hào)值對(duì) ,這樣做使大數(shù)據(jù)具有徹底或許的一般性 。


            運(yùn)用數(shù)據(jù)虛擬化的快速原型

             考慮選用數(shù)據(jù)虛擬化以取得快速原型開發(fā)和模式轉(zhuǎn)化 。數(shù)據(jù)虛擬化是 一種針對(duì)根本物理數(shù)據(jù)界說不同邏輯數(shù)據(jù)結(jié)構(gòu)的強(qiáng)有力技能 。以SQL 辦法界說的規(guī)范視圖是數(shù)據(jù)虛擬化的良好實(shí)例 。理論上講,數(shù)據(jù)虛擬化可以以任何剖析需求的格局展現(xiàn)數(shù)據(jù) ,可是運(yùn)用數(shù)據(jù)虛 擬化要考慮權(quán)衡 運(yùn)轉(zhuǎn)時(shí)核算的開銷與運(yùn)轉(zhuǎn)前樹立物理表的 ETL 開銷 。數(shù)據(jù)虛擬化是構(gòu)建原 型數(shù)據(jù)結(jié)構(gòu) 、快速樹立可 選辦法或供給不同挑選的強(qiáng)有力的辦法 。最好的數(shù)據(jù)虛擬化策略 是在需求測(cè)驗(yàn)和審查以及剖析 人員期望改善實(shí)踐物理表功用時(shí)物化虛擬模式 。


            2.4 大數(shù)據(jù)的數(shù)據(jù)辦理最佳實(shí)踐

             以下最佳實(shí)踐運(yùn)用于辦理大數(shù)據(jù) ,以使其成為有價(jià)值的企業(yè)財(cái)物 。


            沒有作為大數(shù)據(jù)辦理這樣的作業(yè)

             數(shù)據(jù)辦理有必要是一種針對(duì)企業(yè)整個(gè)數(shù)據(jù)生態(tài)的歸納處理辦法 ,不是大數(shù)據(jù)某個(gè)孤立點(diǎn)的解決方案 。大數(shù)據(jù)的數(shù)據(jù)辦理應(yīng)當(dāng)是用于辦理一切企業(yè)數(shù)據(jù)的擴(kuò)展辦法 。至少,數(shù)據(jù)辦理包括隱私、安全、兼容性 、數(shù)據(jù)質(zhì)量 、元數(shù)據(jù)辦理 、主數(shù)據(jù)辦理以及向事務(wù)集體供給界說和環(huán)境的事務(wù)術(shù)語(yǔ)表 。


            運(yùn)用辦理前的數(shù)據(jù)維度化

             以下是一個(gè)有跑的應(yīng)戰(zhàn)大數(shù)據(jù)的介紹 :即便您尚不知道期望從數(shù)據(jù)內(nèi)容中得到什么 , 也有必要運(yùn)用數(shù)據(jù)辦理原則 。您或許每分鐘接納幾 GB 的數(shù)據(jù) ,一般都是以稱號(hào)值對(duì)辦法的意料之外的內(nèi)容 。對(duì)您所承當(dāng)?shù)臄?shù)據(jù)辦理職責(zé)來(lái)說 ,最好的分類數(shù)據(jù)的辦法是盡或許在數(shù)據(jù)流水線的前期階段將其維度化。剖析內(nèi)容、匹配內(nèi)容并一同運(yùn)用身份辨認(rèn) 。在爭(zhēng)辯數(shù)據(jù)集成的效益時(shí)咱們給出了相同的策略 ,但這里主張?jiān)诰S度化過程前對(duì)立運(yùn)用數(shù)據(jù) 。


            隱私是最重要的辦理考慮

             假如您剖析的數(shù)據(jù)集包括有關(guān)個(gè)人或企業(yè)的辨識(shí)信息 ,則隱私是最重要的辦理考慮。雖然數(shù)據(jù)辦理的每個(gè)方面交錯(cuò)在 一同都顯得非常重要 ,但在這些狀況下 ,隱私富有最重要 的職責(zé)和事務(wù)風(fēng)險(xiǎn) 。個(gè)人或小組的隱私假如發(fā)生令人震驚的作業(yè) ,其影響或許會(huì)破壞您的名譽(yù),降低商場(chǎng)的信賴 ,導(dǎo)致民事訴訟 ,使您陷入違犯法令的窘境 。至少,對(duì)大都剖析辦法來(lái)說 ,個(gè)人細(xì)節(jié)有必要被屏蔽 ,數(shù)據(jù)將會(huì)被集合以便無(wú)法區(qū)分個(gè)人的狀況 。在將敏感數(shù)據(jù)存儲(chǔ)到 Hadoop 時(shí),有必要特別留意,由于數(shù)據(jù)在被寫入Hadoop 后 ,Hadoop 不能很好地辦理數(shù)據(jù)更新 。在寫數(shù)據(jù)時(shí) ,數(shù)據(jù)應(yīng)該被屏蔽或加密(持久性數(shù)據(jù) 屏敲),在讀取數(shù)據(jù)時(shí) ,數(shù)據(jù)應(yīng)當(dāng)被屏蔽(動(dòng)態(tài)數(shù)據(jù)屏蔽) 。


            不要挑選大數(shù)據(jù)辦理

             不要將大數(shù)據(jù)辦理推遲到運(yùn)用大數(shù)據(jù)的高峰期展開 。即便是展開大數(shù)據(jù)原型項(xiàng)目 ,也要保護(hù)問題列表,用于考慮什么時(shí)候 需求進(jìn)行下一步作業(yè) 。您不想成為低效的官僚機(jī)構(gòu) , 但也許您可以供給一個(gè)靈敏的官僚機(jī)構(gòu) 。