Kaj je Data Lake? To je arhitektura

Kazalo:

Anonim

Kaj je Data Lake?

Podatkovno jezero je skladišče, ki lahko shrani veliko količino strukturiranih, polstrukturiranih in nestrukturiranih podatkov. To je kraj za shranjevanje vseh vrst podatkov v izvirni obliki brez fiksnih omejitev velikosti računa ali datoteke. Ponuja veliko količino podatkov za povečanje analitične učinkovitosti in izvorne integracije.

Podatkovno jezero je kot velika posoda, ki je zelo podobna pravemu jezeru in rekam. Tako kot v jezero prihaja več pritokov, ima tudi podatkovno jezero strukturirane podatke, nestrukturirane podatke, stroj za stroj, dnevnike, ki tečejo sproti.

Podatkovno jezero podatke demokratizira in je stroškovno učinkovit način za shranjevanje vseh podatkov organizacije za kasnejšo obdelavo. Raziskovalni analitik se lahko osredotoči na iskanje pomennih vzorcev v podatkih in ne na samih podatkih.

Za razliko od hierarhične hiše Dataware, kjer so podatki shranjeni v datotekah in mapah, ima Data Lake ravno arhitekturo. Vsak podatkovni element v podatkovnem jezeru dobi enoličen identifikator in je označen z naborom informacij o metapodatkih.

V tej vadnici boste izvedeli-

  • Kaj je Data Lake?
  • Zakaj Data Lake?
  • Arhitektura podatkovnega jezera
  • Ključni koncepti podatkovnega jezera
  • Faze zrelosti Podatkovnega jezera
  • Najboljše prakse za izvajanje podatkovnega jezera:
  • Razlika med podatkovnimi jezeri in podatkovnim skladiščem
  • Prednosti in tveganja uporabe Data Lake:

Zakaj Data Lake?

Glavni cilj gradnje podatkovnega jezera je ponuditi nerafiniran pogled na podatke znanstvenikom podatkov.

Razlogi za uporabo Data Lake so:

  • Z nastopom mehanizmov za shranjevanje, kot je Hadoop, je shranjevanje različnih informacij postalo enostavno. Podatkov ni treba modelirati v celotno shemo podjetja z podatkovnim jezerom.
  • S povečanjem obsega podatkov, kakovosti podatkov in metapodatkov se povečuje tudi kakovost analiz.
  • Data Lake ponuja poslovno gibčnost
  • Strojno učenje in umetna inteligenca se lahko uporabljata za dobičkonosne napovedi.
  • Ponujajoči organizaciji ponuja konkurenčno prednost.
  • Ni podatkovne strukture silosa. Podatkovno jezero omogoča 360-stopinjski pogled na stranke in naredi analizo močnejšo.

Arhitektura podatkovnega jezera

Slika prikazuje arhitekturo jezera poslovnih podatkov. Spodnje ravni predstavljajo podatke, ki večinoma mirujejo, zgornje pa podatke o transakcijah v realnem času. Ti podatki se pretakajo skozi sistem brez zakasnitve ali z malo. V arhitekturi podatkovnega jezera so naslednje pomembne stopnje:

  1. Stopnja zaužitja : Stopnje na levi strani prikazujejo vire podatkov. Podatke je mogoče naložiti v podatkovno jezero v serijah ali v realnem času
  2. Stopnja vpogledov: ravni na desni predstavljajo raziskovalno stran, kjer se uporabljajo vpogledi iz sistema. Za analizo podatkov bi lahko uporabili poizvedbe SQL, NoSQL ali celo excel.
  3. HDFS je stroškovno učinkovita rešitev za strukturirane in nestrukturirane podatke. To je pristajalno območje za vse podatke, ki mirujejo v sistemu.
  4. Stopnja destilacije zajema podatke iz pnevmatike za shranjevanje in jih pretvori v strukturirane podatke za lažjo analizo.
  5. Analitski algoritmi za obdelavo na nivoju in poizvedbe uporabnikov v različnem realnem času, interaktivni, paketni, ustvarijo strukturirane podatke za lažjo analizo.
  6. Enotna stopnja delovanja ureja upravljanje in spremljanje sistema. Vključuje revizijo in upravljanje s strokovnostjo, upravljanje s podatki, upravljanje poteka dela.

Ključni koncepti podatkovnega jezera

Sledijo ključni koncepti Data Lake, ki jih je treba razumeti, da lahko popolnoma razumemo arhitekturo Data Lake

Zaužitje podatkov

Zaužitje podatkov omogoča priključkom, da dobijo podatke iz različnih podatkovnih virov in se naložijo v podatkovno jezero.

Podatkovni vnos podpira:

  • Vse vrste strukturiranih, polstrukturiranih in nestrukturiranih podatkov.
  • Večkratno zaužitje, kot je paket, sprotno, enkratno nalaganje.
  • Številne vrste podatkovnih virov, kot so zbirke podatkov, spletni strežniki, e-poštna sporočila, IoT in FTP.

Shranjevanje podatkov

Shranjevanje podatkov mora biti prilagodljivo, ponuja stroškovno učinkovito shranjevanje in omogoča hiter dostop do raziskovanja podatkov. Podpirati mora različne oblike podatkov.

Upravljanje podatkov

Upravljanje podatkov je postopek upravljanja razpoložljivosti, uporabnosti, varnosti in celovitosti podatkov, ki se uporabljajo v organizaciji.

Varnost

Varnost je treba izvajati v vsaki plasti podatkovnega jezera. Začne se s shranjevanjem, izkopanjem in porabo. Osnovna potreba je ustaviti dostop nepooblaščenim uporabnikom. Podpirati mora različna orodja za dostop do podatkov z enostavnim navigacijskim GUI in nadzornimi ploščami.

Preverjanje pristnosti, računovodstvo, avtorizacija in varstvo podatkov so nekatere pomembne značilnosti varnosti podatkovnega jezera.

Kakovost podatkov:

Kakovost podatkov je bistvena sestavina arhitekture Data Lake. Podatki se uporabljajo za natančno poslovno vrednost. Izvleček vpogledov iz podatkov slabe kakovosti bo privedel do vpogledov slabe kakovosti.

Odkrivanje podatkov

Odkrivanje podatkov je še ena pomembna faza, preden lahko začnete s pripravo podatkov ali analizo. V tej fazi se tehnika označevanja uporablja za izražanje razumevanja podatkov z organiziranjem in interpretacijo podatkov, vnesenih v Data Lake.

Revizija podatkov

Dve glavni nalogi revizije podatkov sta sledenje spremembam ključnega nabora podatkov.

  1. Sledenje spremembam pomembnih elementov nabora podatkov
  2. Ujame, kako / kdaj / in kdo se spremeni v te elemente.

Revizija podatkov pomaga oceniti tveganje in skladnost.

Podatkovno poreklo

Ta komponenta obravnava izvor podatkov. Ukvarja se predvsem s tem, kam se s časom preseli in kaj se z njim zgodi. Olajša popravljanje napak v procesu analize podatkov od izvora do cilja.

Raziskovanje podatkov

To je začetna faza analize podatkov. Pomaga prepoznati pravi nabor podatkov, preden začnete z raziskovanjem podatkov.

Vse dane komponente morajo sodelovati, da bodo imele pomembno vlogo pri gradnji podatkovnega jezera, ki se bo lahko razvijalo in raziskovalo okolje.

Faze zrelosti Podatkovnega jezera

Opredelitev stopenj zrelosti podatkovnega jezera se od učbenika razlikuje. Čeprav bistvo ostaja enako. Po zrelosti je opredelitev faze z vidika laika.

Faza 1: Obdelava in zaužitje podatkov v obsegu

Ta prva stopnja zrelosti podatkov vključuje izboljšanje sposobnosti preoblikovanja in analize podatkov. Tu morajo lastniki podjetij poiskati orodja v skladu s svojimi veščinami za pridobivanje več podatkov in izdelavo analitičnih aplikacij.

Faza 2: Gradnja analitične mišice

To je druga stopnja, ki vključuje izboljšanje sposobnosti preoblikovanja in analize podatkov. V tej fazi podjetja uporabljajo orodje, ki je najprimernejše za njihovo znanje. Začnejo pridobivati ​​več podatkov in graditi aplikacije. Tu se skupaj uporabljajo zmogljivosti skladišča podatkov podjetja in podatkovnega jezera.

Faza 3: EDW in Data Lake delujejo usklajeno

Ta korak vključuje pridobivanje podatkov in analitike v roke čim večjega števila ljudi. V tej fazi podatkovno jezero in skladišče podatkov podjetij začneta delovati v sindikatu. Oba igrata svojo vlogo v analitiki

Faza 4: Sposobnost podjetja v jezeru

V tej fazi zrelosti podatkovnega jezera se podatkovnemu jezeru dodajo zmogljivosti podjetja. Sprejetje upravljanja informacij, zmogljivosti upravljanja življenjskega cikla informacij in upravljanja metapodatkov. Vendar lahko le malo organizacij doseže to stopnjo zrelosti, vendar se bo to v prihodnosti še povečalo.

Najboljše prakse za izvajanje podatkovnega jezera:

  • Arhitekturne komponente, njihova interakcija in identificirani izdelki bi morali podpirati izvorne tipe podatkov
  • Oblikovanje podatkovnega jezera naj temelji na razpoložljivem namesto na zahtevanem. Zahteva za shemo in podatke ni definirana, dokler ni povprašana
  • Oblikovanje morajo voditi komponente za enkratno uporabo, integrirane s servisnim API-jem.
  • Odkrivanje, zajemanje, shranjevanje, upravljanje, kakovost, pretvorba in vizualizacija podatkov je treba upravljati neodvisno.
  • Arhitektura podatkovnega jezera mora biti prilagojena določeni panogi. Zagotoviti mora, da so zmogljivosti, potrebne za to domeno, sestavni del zasnove
  • Pomembno je hitrejše vključevanje novoodkritih virov podatkov
  • Data Lake pomaga prilagojenemu upravljanju pridobiti največjo vrednost
  • Podatkovno jezero mora podpirati obstoječe tehnike in metode upravljanja podatkov v podjetju

Izzivi gradnje podatkovnega jezera:

  • V Data Lakeu je količina podatkov večja, zato mora biti postopek bolj odvisen od programskega upravljanja
  • Težko je obravnavati redke, nepopolne, nestanovitne podatke
  • Širši obseg nabora podatkov in vira potrebuje večje upravljanje in podporo podatkov

Razlika med podatkovnimi jezeri in podatkovnim skladiščem

Parametri Podatkovna jezera Podatkovno skladišče
Podatki Podatkovna jezera shranjujejo vse. Skladišče podatkov se osredotoča samo na poslovne procese.
Obravnavati Podatki so v glavnem neobdelani Visoko obdelani podatki.
Vrsta podatkov Lahko je nestrukturiran, polstrukturiran in strukturiran. Večinoma je v obliki tabele in zgradbe.
Naloga Skupna raba podatkov Optimizirano za iskanje podatkov
Okretnost Zelo gibčen, po potrebi konfigurirajte in prekonfigurirajte. V primerjavi s Data jezerom je manj gibčno in ima fiksno konfiguracijo.
Uporabniki Data Lake večinoma uporablja Data Scientist Poslovni strokovnjaki pogosto uporabljajo skladišče podatkov
Skladiščenje Zasnova podatkovnih jezer za poceni shranjevanje. Uporablja se drago skladišče, ki omogoča hiter odzivni čas
Varnost Ponuja manjši nadzor. Omogoča boljši nadzor podatkov.
Zamenjava EDW Podatkovno jezero je lahko vir EDW Dopolnjuje EDW (ni zamenjava)
Shema Shema za branje (brez vnaprej določenih shem) Shema za pisanje (vnaprej določene sheme)
Obdelava podatkov Pomaga pri hitrem zaužitju novih podatkov. Uvajanje nove vsebine je zamudno.
Podrobnost podatkov Podatki z nizko stopnjo podrobnosti ali podrobnosti. Podatki na povzetku ali zbirni ravni podrobnosti.
Orodja Lahko uporablja odprtokodno orodje, kot je Hadoop / Map Reduce Večinoma komercialna orodja.

Prednosti in tveganja uporabe Data Lake:

Nekaj ​​glavnih prednosti uporabe podatkovnega jezera:

  • V celoti pomaga pri ionizirajočih izdelkih in napredni analitiki
  • Ponuja stroškovno učinkovito prilagodljivost in prilagodljivost
  • Ponuja vrednost iz neomejenih podatkovnih vrst
  • Zmanjša dolgoročne stroške lastništva
  • Omogoča varčno shranjevanje datotek
  • Hitro prilagodljiv spremembam
  • Glavna prednost podatkovnega jezera je centralizacija različnih vsebinskih virov
  • Uporabniki iz različnih oddelkov so lahko razpršeni po vsem svetu in imajo lahko prožen dostop do podatkov

Nevarnost uporabe podatkovnega jezera:

  • Po določenem času lahko Data Lake izgubi ustreznost in zagon
  • Pri načrtovanju Data Lake obstaja večje tveganje
  • Nestrukturirani podatki lahko vodijo do neurejenega Chao-ja, neuporabnih podatkov, raznolikih in kompleksnih orodij, sodelovanja v celotnem podjetju, poenotenega, skladnega in skupnega
  • Prav tako poveča skladiščenje in izračuna stroške
  • Od drugih, ki so delali s podatki, ni mogoče dobiti vpogleda, ker prejšnji analitiki ne poročajo o rodu ugotovitev
  • Največje tveganje za podatkovna jezera je varnost in nadzor dostopa. Podatke je včasih mogoče dati v jezero brez kakršnega koli nadzora, saj imajo nekateri podatki zasebnost in regulativne potrebe

Povzetek:

  • Podatkovno jezero je skladišče, ki lahko shrani veliko količino strukturiranih, polstrukturiranih in nestrukturiranih podatkov.
  • Glavni cilj gradnje podatkovnega jezera je ponuditi nerafiniran pogled na podatke znanstvenikom podatkov.
  • Enotni nivo delovanja, nivo obdelave, nivo destilacije in HDFS so pomembni sloji arhitekture podatkovnega jezera
  • Zaužitje podatkov, shranjevanje podatkov, kakovost podatkov, revizija podatkov, raziskovanje podatkov, odkrivanje podatkov so nekateri pomembni sestavni deli arhitekture Data Lake
  • Oblikovanje podatkovnega jezera naj temelji na razpoložljivem namesto na zahtevanem.
  • Data Lake zmanjšuje dolgoročne stroške lastništva in omogoča varčno shranjevanje datotek
  • Največje tveganje za podatkovna jezera je varnost in nadzor dostopa. Podatke je včasih mogoče dati v jezero brez kakršnega koli nadzora, saj imajo nekateri podatki zasebnost in regulativne potrebe.