Najboljših 25 vprašanj o ETL intervjuju & Odgovori

Sledijo pogosta vprašanja v intervjujih za svežje in izkušene preizkuševalce ETL in razvijalce.

1) Kaj je ETL?

V arhitekturi skladiščenja podatkov je ETL pomemben sestavni del, ki upravlja podatke za kateri koli poslovni proces. ETL pomeni Extract, Transform in Load . Izvleček opravi postopek branja podatkov iz baze podatkov. Transform pretvorbo podatkov pretvori v obliko, ki bi bila primerna za poročanje in analizo. Nalaganje sicer opravi postopek zapisovanja podatkov v ciljno bazo podatkov.

2) Pojasnite, kaj vključuje testiranje ETL?

Testiranje ETL vključuje

Preverite, ali se podatki pravilno preoblikujejo v skladu s poslovnimi zahtevami
Preverite, ali so predvideni podatki naloženi v podatkovno skladišče brez okrnitve in izgube podatkov
Prepričajte se, da aplikacija ETL poroča o neveljavnih podatkih in jih nadomesti s privzetimi vrednostmi
Prepričajte se, da se podatki nalagajo v pričakovanem časovnem okviru, da izboljšate razširljivost in zmogljivost

3) Omenite, katere so vrste aplikacij za shranjevanje podatkov in kakšna je razlika med podatkovnim rudarjenjem in skladiščenjem podatkov?

Vrste aplikacij za shranjevanje podatkov so

Obdelava informacij
Analitična obdelava
Podatkovno rudarjenje

Podatkovno rudarjenje lahko definiramo kot postopek pridobivanja skritih napovednih informacij iz velikih baz podatkov in interpretacijo podatkov, medtem ko lahko skladiščenje podatkov uporablja podatkovni rudnik za hitrejšo analitično obdelavo podatkov. Skladiščenje podatkov je postopek združevanja podatkov iz več virov v eno skupno repozitorij

4) Katera orodja se uporabljajo v ETL?

Tok odločitve Cognos
Oracle Warehouse Builder
Poslovni predmeti XI
SAS poslovno skladišče
Strežnik SAS Enterprise ETL

5) Kaj je dejstvo? Katere so vrste dejstev?

Je osrednja komponenta večdimenzionalnega modela, ki vsebuje ukrepe, ki jih je treba analizirati. Dejstva so povezana z dimenzijami.

Vrste dejstev so

Dodatna dejstva
Dejstva o polsaditivih
Dejstva brez aditivov

6) Pojasnite, kaj so kocke in OLAP kocke?

Kocke so enote za obdelavo podatkov, sestavljene iz tabel dejstev in dimenzij iz podatkovnega skladišča. Zagotavlja večdimenzionalno analizo.

OLAP je kratica za obdelavo spletne analitike, kocka OLAP pa za namene poročanja shrani velike podatke v večdimenzionalni obliki. Sestavljena je iz dejstev, imenovanih kot ukrepi, razvrščenih po dimenzijah.

7) Pojasnite, kaj je nivo sledenja in katere vrste so?

Stopnja sledenja je količina podatkov, shranjenih v dnevniških datotekah. Stopnjo sledenja lahko razvrstimo v dve običajni in podrobni. Običajna raven natančno razloži stopnjo sledenja, podrobno pa ravni sledenja v vsaki vrstici.

8) Pojasnite, kaj je zrno dejstva?

Zrno dejstvo lahko definiramo kot raven, na kateri se hranijo podatki o dejstvu. Znana je tudi kot zrnatost dejstev

9) Pojasnite, kaj je shema dejstev brez dejstev in kaj je ukrep?

Tabela dejstev brez ukrepov je znana kot tabela dejstev brez dejstev. Ogleda si lahko število dogodkov. Na primer, uporablja se za snemanje dogodka, na primer števila zaposlenih v podjetju.

Številčni podatki, ki temeljijo na stolpcih v tabeli z dejstvi, so znani kot Ukrepi

10) Pojasnite, kaj je preobrazba?

Transformacija je objekt repozitorija, ki generira, spreminja ali posreduje podatke. Transformacija je dve vrsti aktivna in pasivna

11) Pojasnite uporabo preobrazbe iskanja?

Transformacija iskanja je uporabna za

Pridobivanje povezane vrednosti iz tabele z uporabo vrednosti stolpca
Posodobite tabelo počasi spreminjajočih se dimenzij
Preverite, ali zapisi že obstajajo v tabeli

12) Pojasnite, kaj je particioniranje, hash particioniranje in particioniranje?

Za izboljšanje zmogljivosti so transakcije razdeljene na sekunde, kar se imenuje particioniranje. Razdeljevanje omogoča strežniku Informatica za ustvarjanje več povezav z različnimi viri

Vrste particij so

Okrogla razdelitev:

Z informatiko se podatki enakomerno porazdelijo med vse particije
V vsaki particiji, kjer je število vrstic, ki jih je treba obdelati, približno enako, se uporablja ta razdelitev

Razdelitev razpršitve:

Za namene razdeljevanja ključev za razvrščanje podatkov med particije strežnik Informatica uporablja zgoščevalno funkcijo
Uporablja se, kadar je treba zagotoviti, da so v isti particiji zagotovljene skupine vrstic z istim particijskim ključem

13) Omenite, kakšna je prednost uporabe ciljne kartice DataReader?

Prednost uporabe cilčnega vmesnika DataReader je, da napolni nabor zapisov ADO (sestavljen iz zapisov in stolpcev) v pomnilniku in izpostavi podatke iz naloge DataFlow z izvajanjem vmesnika DataReader, tako da lahko druga aplikacija porabi podatke.

14) Kakšni so možni načini za posodobitev tabele s pomočjo SSIS (SQL Server Integration Service)?

Za posodobitev tabele s pomočjo SSIS so možni naslednji načini:

Uporabite ukaz SQL
Uporabite uprizoritveno mizo
Uporabi predpomnilnik
Uporabite skriptno nalogo
Če uporabljate MSSQL, za posodobitev uporabite polno ime baze podatkov

15) Če imate za iskanje vir, ki ni OLEDB (povezava predmetov in vdelava baze podatkov), kaj bi storili?

Če imate za iskanje vir, ki ni OLEBD, morate za nalaganje podatkov uporabiti predpomnilnik in ga uporabiti kot vir

16) V katerem primeru uporabljate dinamični in statični predpomnilnik pri povezanih in nepovezanih transformacijah?

Dinamični predpomnilnik se uporablja, ko morate posodobiti glavno tabelo in počasi spreminjajoče se dimenzije (SCD) tipa 1
Za ravne datoteke se uporablja statični predpomnilnik

17) Pojasnite, kakšne so razlike med nepovezanim in povezanim iskanjem?

Povezano iskanje	Nepovezano iskanje
Povezano iskanje sodeluje pri preslikavi	- Uporablja se, kadar se med preslikavanjem namesto pretvorbe izraza uporablja funkcija iskanja
Vrniti je mogoče več vrednosti	- Vrne samo ena izhodna vrata
Lahko se poveže z drugo transformacijo in vrne vrednost	Druge preobrazbe ni mogoče povezati
Za povezano iskanje je mogoče uporabiti statični ali dinamični predpomnilnik	Brez povezave kot samo statični predpomnilnik
Povezano iskanje podpira uporabniško določene privzete vrednosti	Nepovezano iskanje ne podpira uporabniško določenih privzetih vrednosti
V Connected Lookup lahko več stolpcev vrnete iz iste vrstice ali jih vstavite v predpomnilnik dinamičnega iskanja	Nepovezano iskanje določa ena vrata za vrnitev in iz vsake vrstice vrne en stolpec

18) Pojasnite, kaj je pogled na vir podatkov?

Pogled vira podatkov omogoča definiranje relacijske sheme, ki se bo uporabljala v zbirkah podatkov analitičnih storitev. Namesto neposredno iz objektov vira podatkov se dimenzije in kocke ustvarijo iz pogledov virov podatkov.

19) Pojasnite, v čem je razlika med orodji OLAP in orodji ETL?

Razlika med orodjem ETL in OLAP je v tem

Orodje ETL je namenjeno pridobivanju podatkov iz starejših sistemov in nalaganju v določeno bazo podatkov z nekaterim postopkom čiščenja podatkov.

Primer: podatkovna stopnja, Informatica itd.

Medtem ko je OLAP namenjen poročanju v podatkih OLAP, ki so na voljo v večsmernem modelu.

Primer: Poslovni objekti, Cognos itd.

20) Kako lahko izvlečete podatke SAP s pomočjo Informatice?

Z možnostjo povezovanja z energijo pridobivate podatke SAP s pomočjo informatike
Namestite in konfigurirajte orodje PowerConnect
Uvozite vir v analizator virov. Med Informatico in SAP Powerconnect deluje kot prehod. Naslednji korak je generiranje kode ABAP za preslikavo, nato pa lahko samo informatika vleče podatke iz SAP-a
Za povezavo in uvoz virov iz zunanjih sistemov se uporablja Power Connect

21) Omenite, kakšna je razlika med Power Mart in Power Center?

Power Center	Power Mart
Recimo, da obdelamo ogromno količino podatkov	Recimo, da obdelamo majhno količino podatkov
Podpira ERP vire, kot so SAP, ljudje mehki itd.	Ne podpira virov ERP
Podpira lokalno in globalno skladišče	Podpira lokalno skladišče
Lokalno pretvori v globalno repozitorij	Nima specifikacije za pretvorbo lokalnega v globalno skladišče

22) Pojasnite, kaj je uprizoritveno območje in kakšen je namen odrskega območja?

Stopnjevanje podatkov je področje, kjer imate podatke začasno na strežniku podatkovnega skladišča. Priprava podatkov vključuje naslednje korake

Izvleček in preoblikovanje izvornih podatkov (prestrukturiranje)
Preoblikovanje podatkov (čiščenje podatkov, pretvorba vrednosti)
Nadomestne dodelitve ključev

23) Kaj je avtobusna shema?

Za različne poslovne procese za prepoznavanje skupnih dimenzij se uporablja shema BUS. Na voljo je z usklajenimi dimenzijami in standardizirano definicijo informacij

24) Pojasnite, kaj je čiščenje podatkov?

Čiščenje podatkov je postopek brisanja podatkov iz podatkovnega skladišča. Izbriše neželene podatke, podobne vrsticam, z ničelnimi vrednostmi ali dodatnimi presledki.

25) Pojasnite, kaj so objekti sheme?

Objekti sheme so logična struktura, ki se neposredno nanaša na podatke zbirk podatkov. Objekti sheme vključujejo tabele, poglede, sopomenke zaporedja, indekse, gruče, pakete funkcij in povezave do baze podatkov

26) Pojasnite te izraze Session, Worklet, Mapplet in Workflow?

Mapplet: ureja ali ustvarja sklope transformacije
Worklet: Predstavlja določen nabor danih nalog
Potek dela: To je sklop navodil, ki strežniku sporočajo, kako izvajati naloge
Seja: To je niz parametrov, ki strežniku pove, kako premakniti podatke iz virov v ciljne

Brezplačen prenos PDF: Vprašanja in odgovori za intervicijsko preizkušanje ETL