Arhitektura skladišča podatkov, koncepti in komponente

Kazalo:

Anonim

Koncepti skladišča podatkov

Osnovni koncept skladišča podatkov je omogočiti podjetju enotno različico resnice za odločanje in napovedovanje. Podatkovno skladišče je informacijski sistem, ki vsebuje zgodovinske in komutativne podatke iz enega ali več virov. Koncepti skladišča podatkov poenostavljajo postopek poročanja in analize organizacij.

Značilnosti podatkovnega skladišča

Koncepti skladišča podatkov imajo naslednje značilnosti:

  • Predmetno usmerjeno
  • Integrirano
  • Časovna varianta
  • Nehlapljivo

Predmetno usmerjeno

Podatkovno skladišče je predmetno usmerjeno, saj namesto o tekočem poslovanju podjetij ponuja informacije o temi. Te teme so lahko prodaja, trženje, distribucija itd.

Podatkovno skladišče se nikoli ne osredotoča na tekoče operacije. Namesto tega je poudaril modeliranje in analizo podatkov za odločanje . Ponuja tudi preprost in jedrnat pogled na določeno temo z izključitvijo podatkov, ki niso koristni za podporo postopku odločanja.

Integrirano

V Data Warehouseu integracija pomeni vzpostavitev skupne merske enote za vse podobne podatke iz različne baze podatkov. Podatke je treba shraniti tudi v zbirki podatkov na splošen in splošno sprejemljiv način.

Podatkovno skladišče je razvito z vključevanjem podatkov iz različnih virov, kot so glavni računalnik, relacijske zbirke podatkov, ploščate datoteke itd. Poleg tega mora ohranjati dosledne konvencije o poimenovanju, obliko in kodiranje.

Ta integracija pomaga pri učinkoviti analizi podatkov. Zagotoviti je treba doslednost pri imenovanju, merilih atributov, strukturi kodiranja itd. Upoštevajte naslednji primer:

V zgornjem primeru obstajajo tri različne aplikacije z oznako A, B in C. Informacije, shranjene v teh aplikacijah, so spol, datum in stanje. Vendar se podatki o vsaki aplikaciji shranjujejo drugače.

  • V aplikaciji Polje spola hrani logične vrednosti, kot sta M ali F
  • V polju za uporabo spola je številčna vrednost,
  • V aplikaciji Application C je polje spola shranjeno v obliki znakovne vrednosti.
  • Enako velja za datum in stanje

Po preoblikovanju in čiščenju pa se vsi ti podatki shranijo v skupni obliki v skladišču podatkov.

Časovna varianta

Časovno obdobje za shranjevanje podatkov je v primerjavi z operativnimi sistemi precej obsežno. Podatki, zbrani v podatkovnem skladišču, so prepoznani v določenem obdobju in ponujajo informacije z zgodovinskega vidika. Vsebuje element časa, eksplicitno ali implicitno.

Takšen kraj, kjer je časovna varianca prikaza podatkov Datawarehouse v strukturi zapisovalnega ključa. Vsak primarni ključ, ki ga vsebuje DW, bi moral implicitno ali eksplicitno imeti element časa. Tako kot dan, teden, mesec itd.

Drug vidik časovne razlike je, da ko so podatki enkrat vstavljeni v skladišče, jih ni mogoče posodobiti ali spremeniti.

Nehlapljivo

Skladišče podatkov je tudi nestanovitno, kar pomeni, da se prejšnji podatki ob izbrisu novih podatkov ne izbrišejo.

Podatki so samo za branje in se občasno osvežujejo. To prav tako pomaga analizirati zgodovinske podatke in razumeti, kaj in kdaj se je zgodilo. Ne zahteva mehanizmov postopka transakcij, obnovitve in nadzora sočasnosti.

Dejavnosti, kot so brisanje, posodabljanje in vstavljanje, ki se izvajajo v okolju operativne aplikacije, so v okolju podatkovnega skladišča izpuščene. V skladišču podatkov sta izvedeni samo dve vrsti podatkovnih operacij

  1. Nalaganje podatkov
  2. Dostop do podatkov

Tu je nekaj glavnih razlik med aplikacijo in skladiščem podatkov

Operativna aplikacija Podatkovno skladišče
Kompleksni program mora biti kodiran, da se zagotovi, da postopki nadgradnje podatkov ohranjajo visoko integriteto končnega izdelka. Te težave se ne zgodijo, ker se posodobitev podatkov ne izvaja.
Podatki so v normalizirani obliki, da se zagotovi minimalna redundanca. Podatki niso shranjeni v normalizirani obliki.
Tehnologija, ki je potrebna za podporo transakcijam, obnovitvi podatkov, vračanju in reševanju, saj je njena zastoj precej zapletena. Ponuja relativno preprostost v tehnologiji.

Arhitektura skladišča podatkov

Arhitektura skladišča podatkov je zapletena, saj gre za informacijski sistem, ki vsebuje zgodovinske in komutativne podatke iz več virov. Obstajajo trije pristopi za izdelavo slojev podatkovnega skladišča: enotirni, dvotirni in tristopenjski. Ta 3-stopenjska arhitektura podatkovnega skladišča je razložena spodaj.

Enoslojna arhitektura

Cilj ene plasti je zmanjšati količino shranjenih podatkov. Cilj je odstraniti odvečnost podatkov. Ta arhitektura se v praksi ne uporablja pogosto.

Dvotirna arhitektura

Dvoslojna arhitektura je ena od plasti podatkovnega skladišča, ki ločuje fizično dostopne vire in podatkovno skladišče. Te arhitekture ni mogoče razširiti in tudi ne podpira velikega števila končnih uporabnikov. Težave s povezljivostjo ima tudi zaradi omrežnih omejitev.

Troslojna arhitektura skladišča podatkov

To je najpogosteje uporabljena arhitektura skladišča podatkov.

Sestavljajo ga zgornji, srednji in spodnji nivo.

  1. Spodnja stopnja: Baza podatkov strežnikov Datawarehouse kot spodnja stopnja. Običajno gre za sistem relacijske baze podatkov. Podatki se očistijo, preoblikujejo in naložijo v to plast z uporabo zalednih orodij.
  2. Srednja stopnja: srednja stopnja v podatkovnem skladišču je strežnik OLAP, ki je implementiran z uporabo modela ROLAP ali MOLAP. Za uporabnika ta raven aplikacije predstavlja abstraktni pogled baze podatkov. Ta plast deluje tudi kot posrednik med končnim uporabnikom in bazo podatkov.
  3. Vrhnja stopnja: zgornja stopnja je plast čelnega odjemalca. Najvišja stopnja so orodja in API, ki jih povežete in pridobite podatke iz podatkovnega skladišča. To so lahko orodja za poizvedbe, orodja za poročanje, orodja za upravljana poizvedbe, orodja za analizo in orodja za rudarjenje podatkov.

Komponente podatkovnega skladišča

Spoznali bomo komponente komponent podatkov in arhitekturo skladišča podatkov z diagramom, kot je prikazano spodaj:

Arhitektura skladišča podatkov

Skladišče podatkov temelji na strežniku RDBMS, ki je osrednje skladišče informacij, ki je obdano z nekaterimi ključnimi komponentami skladiščenja podatkov, da je celotno okolje funkcionalno, vodljivo in dostopno.

Komponent skladišča podatkov je v glavnem pet:

Baza podatkov skladišča podatkov

Osrednja baza podatkov je temelj okolja za shranjevanje podatkov. Ta baza podatkov je izvedena na tehnologiji RDBMS. Vendar je tovrstna izvedba omejena z dejstvom, da je tradicionalni sistem RDBMS optimiziran za transakcijsko obdelavo zbirke podatkov in ne za skladiščenje podatkov. Ad hoc poizvedbe, združevanja z več tabelami, agregati na primer zahtevajo veliko virov in upočasnjujejo delovanje.

Zato se uporabljajo alternativni pristopi k zbirki podatkov, kot so navedeni spodaj -

  • V podatkovnem skladišču so relacijske baze podatkov postavljene vzporedno, da se omogoči razširljivost. Vzporedne relacijske zbirke podatkov omogočajo tudi deljeni pomnilnik ali model nič v skupni rabi na različnih konfiguracijah večprocesorjev ali masivno vzporednih procesorjih.
  • Nove indeksne strukture se uporabljajo za izogibanje pregledovanju relacijskih tabel in izboljšanju hitrosti.
  • Uporaba večdimenzionalne baze podatkov (MDDB) za premagovanje omejitev, ki so postavljene zaradi relacijskih modelov skladišča podatkov. Primer: Essbase iz podjetja Oracle.

Orodja za pridobivanje, pridobivanje, čiščenje in preoblikovanje (ETL)

Orodja za pridobivanje, preoblikovanje in selitev podatkov se uporabljajo za izvajanje vseh pretvorb, povzetkov in vseh sprememb, potrebnih za pretvorbo podatkov v enotno obliko v shrambi podatkovnih zbirk. Imenujejo se tudi orodja za ekstrahiranje, preoblikovanje in nalaganje (ETL).

Njihova funkcionalnost vključuje:

  • Anonimizirajte podatke v skladu s predpisi.
  • Odstranjevanje neželenih podatkov v operativnih zbirkah podatkov iz nalaganja v podatkovno skladišče.
  • Poiščite in zamenjajte običajna imena in definicije za podatke, ki prihajajo iz različnih virov.
  • Izračun povzetkov in izpeljanih podatkov
  • V primeru manjkajočih podatkov jih zapolnite s privzetimi podatki.
  • Ponavljajoči se podatki, ki prihajajo iz več virov podatkov, ne podvajajo.

Ta orodja za ekstrahiranje, preoblikovanje in nalaganje lahko ustvarijo opravila cron, opravila v ozadju, programe Cobol, skripte lupine itd., Ki redno posodabljajo podatke v podatkovnem skladišču. Ta orodja so koristna tudi za vzdrževanje metapodatkov.

Ta orodja ETL se morajo spoprijeti z izzivi heterogenosti zbirk podatkov in podatkov.

Metapodatki

Ime Meta Data predlaga nekaj visoko tehnoloških konceptov skladiščenja podatkov. Vendar je povsem preprosto. Metapodatki so podatki o podatkih, ki opredeljujejo podatkovno skladišče. Uporablja se za izdelavo, vzdrževanje in upravljanje podatkovnega skladišča.

V Arhitekturi skladišča podatkov imajo metapodatki pomembno vlogo, saj določajo vir, uporabo, vrednosti in značilnosti podatkovnih podatkovnih skladišč. Določa tudi, kako je mogoče podatke spreminjati in obdelovati. Je tesno povezan s podatkovnim skladiščem.

Vrstica v prodajni bazi podatkov lahko na primer vsebuje:

4030 KJ732 299.90

To so nesmiselni podatki, dokler se ne obrnemo na Meta, ki nam pove, da je bilo

  • Številka modela: 4030
  • ID prodajnega agenta: KJ732
  • Skupni znesek prodaje 299,90 USD

Zato so Meta Data bistvene sestavine pri preoblikovanju podatkov v znanje.

Metapodatki pomagajo odgovoriti na naslednja vprašanja

  • Katere tabele, atribute in ključe vsebuje skladišče podatkov?
  • Od kod podatki?
  • Kolikokrat se podatki ponovno naložijo?
  • Katere transformacije so bile uporabljene pri čiščenju?

Metapodatke lahko razvrstimo v naslednje kategorije:

  1. Tehnični metapodatki: Ta vrsta metapodatkov vsebuje informacije o skladišču, ki jih uporabljajo oblikovalci in skrbniki podatkovnega skladišča.
  2. Poslovni metapodatki : tovrstni metapodatki vsebujejo podrobnosti, ki končnim uporabnikom omogočajo enostavno razumevanje informacij, shranjenih v podatkovnem skladišču.

Orodja za poizvedbe

Eden od glavnih ciljev shranjevanja podatkov je zagotavljanje informacij podjetjem za sprejemanje strateških odločitev. Orodja za poizvedbe uporabnikom omogočajo interakcijo s sistemom podatkovnih skladišč.

Ta orodja spadajo v štiri različne kategorije:

  1. Orodja za poizvedbe in poročanje
  2. Orodja za razvoj aplikacij
  3. Orodja za podatkovno rudarjenje
  4. Orodja OLAP

1. Orodja za poizvedbe in poročanje:

Orodja za poizvedbe in poročanje lahko nadalje razdelimo na

  • Orodja za poročanje
  • Orodja za upravljana poizvedbe

Orodja za poročanje:

Orodja za poročanje lahko nadalje razdelimo na orodja za poročanje o produkciji in program za pisanje poročil na namizju.

  1. Pisci poročil: Tovrstno orodje za poročanje je orodje, namenjeno končnim uporabnikom za njihovo analizo.
  2. Poročanje o proizvodnji: tovrstna orodja omogočajo organizacijam redno pripravo operativnih poročil. Podpira tudi obsežna serijska opravila, kot sta tiskanje in računanje. Nekatera priljubljena orodja za poročanje so Brio, Business Objects, Oracle, PowerSoft, SAS Institute.

Orodja za upravljana poizvedbe:

Tovrstna orodja za dostop končnim uporabnikom pomagajo pri reševanju zastojev v zbirki podatkov in SQL ter strukturi baze podatkov z vstavljanjem metaplasti med uporabnike in bazo podatkov.

2. Orodja za razvoj aplikacij:

Včasih vgrajena grafična in analitična orodja ne ustrezajo analitičnim potrebam organizacije. V takih primerih se poročila po meri razvijejo z orodji za razvoj aplikacij.

3. Orodja za podatkovno rudarjenje:

Podatkovno rudarjenje je postopek odkrivanja pomembnih novih korelacij, vzorcev in trendov z rudarjenjem velike količine podatkov. Za samodejni postopek se uporabljajo orodja za podatkovno rudarjenje.

4. Orodja OLAP:

Ta orodja temeljijo na konceptih večdimenzionalne baze podatkov. Uporabnikom omogoča analizo podatkov z uporabo zapletenih in zapletenih večdimenzionalnih pogledov.

Podatkovno skladišče Arhitektura vodila

Podatkovno skladišče Bus določa pretok podatkov v vašem skladišču. Pretok podatkov v podatkovnem skladišču lahko razvrstimo v dotok, navzgor, navzdol, odtok in meta tok.

Pri načrtovanju podatkovnega vodila je treba upoštevati skupne dimenzije in dejstva na podatkovnih točkah.

Podatkovne oznake

Data mart je dostopna plast, ki se uporablja za dostop do podatkov uporabnikom. Predstavlja se kot možnost za veliko skladišče podatkov, saj za njegovo izdelavo potrebujete manj časa in denarja. Vendar pa ni standardne opredelitve podatkovnega marta, ki bi se razlikoval od osebe do osebe.

Z enostavno besedo Data mart je hčerinsko podjetje skladišča podatkov. Data mart se uporablja za razdelitev podatkov, ki je ustvarjena za določeno skupino uporabnikov.

Podatkovne oznake je mogoče ustvariti v isti bazi podatkov kot Datawarehouse ali fizično ločeni zbirki podatkov.

Najboljše prakse za arhitekturo podatkovnega skladišča

Če želite oblikovati arhitekturo skladišča podatkov, morate upoštevati spodnje najboljše prakse:

  • Uporabite modele skladišča podatkov, ki so optimizirani za iskanje informacij, kar je lahko dimenzijski način, denormaliziran ali hibridni pristop.
  • Izberite ustrezen pristop k oblikovanju kot pristop od zgoraj navzdol in od spodaj navzgor v skladišču podatkov
  • Zagotoviti je treba, da se podatki obdelujejo hitro in natančno. Hkrati bi morali sprejeti pristop, ki združuje podatke v eno različico resnice.
  • Natančno oblikujte postopek zajemanja in čiščenja podatkov za podatkovno skladišče.
  • Oblikujte arhitekturo MetaData, ki omogoča skupno rabo metapodatkov med komponentami Data Warehouse
  • Razmislite o uvedbi modela ODS, kadar je potreba po iskanju informacij blizu dna piramide za odvzem podatkov ali kadar je treba dostopati do več operativnih virov.
  • Poskrbeti je treba, da je podatkovni model integriran in ne samo konsolidiran. V tem primeru bi morali razmisliti o podatkovnem modelu 3NF. Idealen je tudi za nakup orodij za čiščenje ETL in podatkov

Povzetek:

  • Skladišče podatkov je informacijski sistem, ki vsebuje zgodovinske in komutativne podatke iz enega ali več virov. Ti viri so lahko tradicionalno skladišče podatkov, skladišče podatkov v oblaku ali navidezno skladišče podatkov.
  • Podatkovno skladišče je predmetno usmerjeno, saj ponuja informacije o zadevi namesto o tekočem delovanju organizacije.
  • V Data Warehouse integracija pomeni vzpostavitev skupne merske enote za vse podobne podatke iz različnih zbirk podatkov
  • Skladišče podatkov je tudi nestanovitno, kar pomeni, da se prejšnji podatki ob izbrisu novih podatkov ne izbrišejo.
  • Podatkovna hiša je časovno različica, saj imajo podatki v zbirki podatkov visok rok uporabnosti.
  • Arhitektura skladišča podatkov je v glavnem 5 komponent: 1) Zbirka podatkov 2) Orodja ETL 3) Meta podatki 4) Orodja za poizvedbe 5) DataMarts
  • To so štiri glavne kategorije orodij za poizvedbe 1. Poizvedbe in poročanje, orodja 2. Orodja za razvoj aplikacij, 3. Orodja za rudarjenje podatkov 4. Orodja OLAP
  • Orodja za pridobivanje, preoblikovanje in selitev podatkov se uporabljajo za izvajanje vseh pretvorb in povzetkov.
  • V Arhitekturi skladišča podatkov imajo metapodatki pomembno vlogo, saj določajo vir, uporabo, vrednosti in značilnosti podatkovnih podatkovnih skladišč.