Proces ETL (ekstrakt, pretvorba in nalaganje) v skladišču podatkov

Kaj je ETL?

ETL je postopek, ki podatke izvleče iz različnih izvornih sistemov, nato jih preoblikuje (kot so izračuni, združevanja itd.) In na koncu naloži podatke v sistem Data Warehouse. Celotna oblika ETL je Extract, Transform in Load.

Zanimivo je misliti, da ustvarjanje podatkovnega skladišča preprosto izvleče podatke iz več virov in naloži v bazo podatkovnega skladišča. To še zdaleč ni resnica in zahteva zapleten postopek ETL. Proces ETL zahteva aktivne prispevke različnih zainteresiranih strani, vključno z razvijalci, analitiki, preizkuševalci, vodilnimi direktorji, in je tehnično zahteven.

Da bi ohranili svojo vrednost kot orodje za odločevalce, se mora sistem skladišča podatkov spreminjati s poslovnimi spremembami. ETL je ponavljajoča se dejavnost (dnevno, tedensko, mesečno) sistema skladišča podatkov in mora biti gibčna, avtomatizirana in dobro dokumentirana.

V tej vadnici ETL boste izvedeli-

Kaj je ETL?
Zakaj potrebujete ETL?
Proces ETL v podatkovnih skladiščih
Korak 1) Ekstrakcija
2. korak) Preobrazba
Korak 3) Nalaganje
Orodja ETL
Najboljši postopki postopka ETL

Zakaj potrebujete ETL?

Razlogov za sprejetje ETL v organizaciji je veliko:

Podjetjem pomaga analizirati svoje poslovne podatke za sprejemanje kritičnih poslovnih odločitev.
Transakcijske zbirke podatkov ne morejo odgovoriti na zapletena poslovna vprašanja, na katera lahko odgovorimo na primeru ETL.
Skladišče podatkov ponuja skupno repozitorij podatkov
ETL ponuja način premikanja podatkov iz različnih virov v podatkovno skladišče.
Ko se viri podatkov spremenijo, se skladišče podatkov samodejno posodobi.
Dobro zasnovan in dokumentiran sistem ETL je skoraj bistven za uspeh projekta Data Warehouse.
Omogoči preverjanje pravil preoblikovanja, združevanja in izračunov podatkov.
Proces ETL omogoča primerjavo vzorčnih podatkov med izvornim in ciljnim sistemom.
Proces ETL lahko izvaja zapletene transformacije in zahteva dodatno območje za shranjevanje podatkov.
ETL pomaga pri selitvi podatkov v skladišče podatkov. Pretvorite v različne formate in vrste, da se držite enega doslednega sistema.
ETL je vnaprej določen postopek za dostop in obdelavo izvornih podatkov v ciljni bazi podatkov.
ETL v podatkovnem skladišču ponuja globok zgodovinski kontekst za poslovanje.
Pomaga izboljšati produktivnost, ker kodira in ponovno uporablja brez potrebe po tehničnih znanjih.

Proces ETL v podatkovnih skladiščih

ETL je postopek v treh korakih

Korak 1) Ekstrakcija

V tem koraku arhitekture ETL se podatki iz izvornega sistema pridobijo v uprizoritveno območje. Morebitne transformacije se izvedejo na odrskem območju, tako da delovanje izvornega sistema ni poslabšano. Če se poškodovani podatki kopirajo neposredno iz vira v bazo podatkovnega skladišča, bo izziv izziv. Predelovalno območje daje priložnost za preverjanje pridobljenih podatkov, preden se premaknejo v podatkovno skladišče.

Skladišče podatkov mora vključevati drugačne sisteme

DBMS, strojna oprema, operacijski sistemi in komunikacijski protokoli. Viri bi lahko vključevali stare programe, kot so glavni računalniki, prilagojene aplikacije, naprave kontaktnih točk, kot so bankomati, stikala za klice, besedilne datoteke, preglednice, ERP, podatki prodajalcev, med drugim.

Zato potrebujemo logičen podatkovni zemljevid, preden podatke fizično izvlečemo in naložimo. Ta podatkovna karta opisuje razmerje med viri in ciljnimi podatki.

Tri metode pridobivanja podatkov:

Popolna ekstrakcija
Delno pridobivanje - brez obvestila o posodobitvi.
Delno pridobivanje - z obvestilom o posodobitvi

Ne glede na uporabljeno metodo ekstrakcija ne sme vplivati na zmogljivost in odzivni čas izvornih sistemov. Ti izvorni sistemi so podatkovne baze v živo. Vsaka upočasnitev ali zaklepanje bi lahko vplivala na bistvo podjetja.

Med ekstrakcijo se izvede nekaj validacij:

Uskladite zapise z izvornimi podatki
Prepričajte se, da ni naložene neželene pošte / neželenih podatkov
Preverjanje vrste podatkov
Odstranite vse vrste podvojenih / razdrobljenih podatkov
Preverite, ali so vse tipke na svojem mestu

2. korak) Preobrazba

Podatki, pridobljeni iz izvornega strežnika, so surovi in v prvotni obliki niso uporabni. Zato ga je treba očistiti, preslikati in preoblikovati. Pravzaprav je to ključni korak, kjer postopek ETL doda vrednost in spremeni podatke, tako da je mogoče ustvariti vpogledna poročila BI.

To je eden pomembnih konceptov ETL, kjer na izvlečenih podatkih uporabite nabor funkcij. Podatki, ki ne zahtevajo nobene preobrazbe, se imenujejo neposredni premik ali prehod skozi podatke .

V koraku transformacije lahko izvajate prilagojene operacije s podatki. Na primer, če uporabnik želi vsoto prihodkov od prodaje, ki je ni v bazi podatkov. Ali če sta ime in priimek v tabeli v različnih stolpcih. Pred nalaganjem jih je mogoče združiti.

Sledijo težave s celovitostjo podatkov:

Različne črkovanja iste osebe, kot so Jon, John itd.
Obstaja več načinov za označevanje imena podjetja, kot sta Google in Google Inc.
Uporaba različnih imen, kot so Cleaveland, Cleveland.
Mogoče je, da različne aplikacije generirajo različne številke računov za isto stranko.
V nekaterih podatkih zahtevane datoteke ostanejo prazne
Neveljaven izdelek, zbran na POS kot ročni vnos, lahko privede do napak.

V tej fazi se opravijo validacije

Filtriranje - izberite samo nekatere stolpce, ki jih želite naložiti
Uporaba pravil in iskalnih tabel za standardizacijo podatkov
Upravljanje pretvorbe in kodiranja naborov znakov
Pretvorba merskih enot, kot so pretvorba datuma in časa, pretvorba valut, numerična pretvorba itd.
Preverjanje veljavnosti podatkovnega praga. Na primer, starost ne sme biti daljša od dveh števk.
Potrditev pretoka podatkov od vmesnega območja do vmesnih tabel.
Obvezna polja ne smejo biti prazna.
Čiščenje (na primer preslikava NULL na 0 ali spol moškega na "M" in ženskega na "F" itd.)
Razdelite stolpec na večkratnike in združite več stolpcev v en sam stolpec.
Prenos vrstic in stolpcev,
Uporabite poizvedbe za združevanje podatkov
Uporaba kakršnega koli zapletenega preverjanja veljavnosti podatkov (npr. Če sta prva dva stolpca v vrstici prazna, potem vrstica samodejno zavrne obdelavo)

Korak 3) Nalaganje

Nalaganje podatkov v ciljno zbirko podatkovnih zbirk podatkov je zadnji korak postopka ETL. V tipičnem podatkovnem skladišču je treba v razmeroma kratkem času (ponoči) naložiti ogromno podatkov. Zato je treba postopek obremenitve optimizirati za delovanje.

V primeru okvare obremenitve je treba konfigurirati mehanizme za obnovitev, da se znova zaženejo od točke okvare brez izgube integritete podatkov. Skrbniki skladišča podatkov morajo spremljati, nadaljevati in preklicati nalaganja v skladu s prevladujočo zmogljivostjo strežnika.

Vrste nakladanja:

Začetno nalaganje - zapolnitev vseh tabel skladišča podatkov
Inkrementalna obremenitev - občasno spreminjanje po potrebi.
Popolno osvežitev - brisanje vsebine ene ali več tabel in ponovno nalaganje s svežimi podatki.

Preverjanje obremenitve

Prepričajte se, da podatki o ključnem polju ne manjkajo in niso nič.
Preizkusite poglede modeliranja na podlagi ciljnih tabel.
Preverite, ali so kombinirane vrednosti in izračunane mere.
Preverjanje podatkov v tabeli dimenzij in tabeli zgodovine.
Preverite poročila BI v naloženi tabeli dejstev in dimenzij.

Orodja ETL

Na trgu je na voljo veliko orodij za skladiščenje podatkov. Tu je nekaj najvidnejših:

1. MarkLogic:

MarkLogic je rešitev za skladiščenje podatkov, ki omogoča lažjo in hitrejšo integracijo podatkov z uporabo številnih funkcij podjetja. Lahko poizveduje o različnih vrstah podatkov, kot so dokumenti, razmerja in metapodatki.

https://www.marklogic.com/product/getting-started/

2. Oracle:

Oracle je vodilna baza podatkov v industriji. Ponuja široko paleto rešitev Data Warehouse tako za krajevno kot v oblaku. S povečanjem operativne učinkovitosti pomaga optimizirati izkušnje strank.

https://www.oracle.com/index.html

3. Amazon RedShift:

Amazon Redshift je orodje Datawarehouse. Je preprosto in stroškovno učinkovito orodje za analizo vseh vrst podatkov z uporabo standardnega SQL in obstoječih orodij BI. Omogoča tudi izvajanje zapletenih poizvedb proti petabajtom strukturiranih podatkov.

https://aws.amazon.com/redshift/?nc2=h_m1

Tu je popoln seznam uporabnih orodij za podatkovno skladišče.

Najboljši postopki postopka ETL

Sledijo najboljše prakse za korake postopka ETL:

Nikoli ne poskušajte očistiti vseh podatkov:

Vsaka organizacija bi rada imela vse podatke čiste, vendar večina od njih ni pripravljena plačati za čakanje ali ni pripravljena čakati. Čiščenje vsega bi preprosto trajalo predolgo, zato je bolje, da ne poskušate očistiti vseh podatkov.

Nikoli ne čistite ničesar:

Vedno načrtujte nekaj očistiti, ker je največji razlog za izdelavo skladišča podatkov ponuditi čistejše in zanesljivejše podatke.

Določite stroške čiščenja podatkov:

Pred čiščenjem vseh umazanih podatkov je pomembno, da določite stroške čiščenja za vsak umazan podatkovni element.

Če želite pospešiti obdelavo poizvedbe, imejte pomožne poglede in indekse:

Če želite zmanjšati stroške shranjevanja, strnjene podatke shranite na trakove z diski. Potreben je tudi kompromis med količino podatkov, ki jih je treba shraniti, in njihovo podrobno uporabo. Kompromis na ravni razdrobljenosti podatkov za zmanjšanje stroškov shranjevanja.

Povzetek:

ETL stoji za ekstrahiranje, preoblikovanje in nalaganje.
ETL ponuja način premikanja podatkov iz različnih virov v podatkovno skladišče.
V prvem koraku ekstrakcije se podatki iz izvornega sistema izvlečejo v uprizoritveno območje.
V koraku transformacije se podatki, pridobljeni iz vira, očistijo in transformirajo.
Nalaganje podatkov v ciljno shrambo podatkov je zadnji korak postopka ETL.