Najpogostejših 62 vprašanj za intervju z inženirjem podatkov & Odgovori

Anonim

Tu so pogosto zastavljena vprašanja za pogovore s podatkovnimi inženirji za sveže in izkušene kandidate, da bi dobili pravo službo.

1) Pojasnite podatkovno inženirstvo.

Podatkovno inženirstvo je izraz, ki se uporablja v velikih podatkih. Osredotoča se na uporabo zbiranja podatkov in raziskav. Podatki, pridobljeni iz različnih virov, so samo surovi podatki. Podatkovni inženiring pomaga pretvoriti te surove podatke v koristne informacije.

2) Kaj je modeliranje podatkov?

Podatkovno modeliranje je način dokumentiranja zapletene programske opreme kot diagrama, tako da lahko vsakdo zlahka razume. Gre za konceptualno predstavitev podatkovnih objektov, ki so povezani med različnimi podatkovnimi objekti in pravili.

3) Naštejte različne vrste načrtovalnih shem v modeliranju podatkov

Pri modeliranju podatkov obstajata v glavnem dve vrsti shem: 1) Shema zvezd in 2) Shema snežinke.

4) Ločite med strukturiranimi in nestrukturiranimi podatki

Sledi razlika med strukturiranimi in nestrukturiranimi podatki:

Parameter Strukturirani podatki Nestrukturirani podatki
Skladiščenje DBMS Neupravljane strukture datotek
Standardno ADO.net, ODBC in SQL STMP, XML, CSV in SMS
Orodje za integracijo ELT (izvleček, preoblikovanje, nalaganje) Ročni vnos podatkov ali serijska obdelava, ki vključuje kode
skaliranje Prilagajanje sheme je težko Skaliranje je zelo enostavno.

5) Pojasnite vse komponente aplikacije Hadoop

Sledijo komponente aplikacije Hadoop:

  • Hadoop Common: To je skupen nabor pripomočkov in knjižnic, ki jih uporablja Hadoop.
  • HDFS: Ta aplikacija Hadoop se nanaša na datotečni sistem, v katerem so shranjeni podatki Hadoop. Gre za porazdeljeni datotečni sistem z visoko pasovno širino.
  • Hadoop MapReduce: Temelji na algoritmu za zagotavljanje obsežne obdelave podatkov.
  • Preja Hadoop: Uporablja se za upravljanje virov znotraj grozda Hadoop. Uporablja se lahko tudi za razporejanje opravil za uporabnike.

6) Kaj je NameNode?

Je osrednji del HDFS. Shranjuje podatke HDFS in sledi različnim datotekam v skupinah. Tu dejanski podatki niso shranjeni. Podatki so shranjeni v DataNodes.

7) Določite Hadoop pretakanje

To je pripomoček, ki omogoča ustvarjanje zemljevida, zmanjšuje število delovnih mest in jih posreduje v določeno skupino.

8) Kakšna je celotna oblika HDFS?

HDFS pomeni Hadoop Distributed File System.

9) Določite Block and Block Scanner v HDFS

Bloki so najmanjša enota podatkovne datoteke. Hadoop samodejno razdeli ogromne datoteke na majhne koščke.

Block Scanner preveri seznam blokov, ki so predstavljeni v DataNode.

10) Kateri koraki se zgodijo, ko Block Scanner zazna poškodovan podatkovni blok?

Spodaj so navedeni koraki, ko Block Scanner najde poškodovan podatkovni blok:

1) Najprej, ko Block Scanner najde poškodovan podatkovni blok, DataNode poroča NameNode

2) NameNode zažene postopek ustvarjanja nove replike z uporabo replike poškodovanega bloka.

3) Število replikacij pravilnih replik se poskuša ujemati s faktorjem replikacije. Če je ugotovljeno ujemanje poškodovan, podatkovni blok ne bo izbrisan.

11) Poimenujte dve sporočili, ki jih NameNode dobi od DataNode?

NameNode dobi dve sporočili od DataNode. To so 1) Block report in 2) Heartbeat.

12) Navedite različne konfiguracijske datoteke XML v Hadoopu?

V Hadoopu je pet konfiguracijskih datotek XML:

  • Zemljevid na zemljevidu
  • Jedro-mesto
  • Spletno mesto HDFS
  • Mesto preje

13) Kateri so štirje V-ji za velike podatke?

Štiri V velikih podatkov so:

  • Hitrost
  • Raznolikost
  • Glasnost
  • Verodostojnost

14) Pojasnite značilnosti Hadoopa

Pomembne lastnosti Hadoopa so:

  • To je odprtokodni okvir, ki je na voljo brezplačno.
  • Hadoop je združljiv s številnimi vrstami strojne opreme in je enostaven za dostop do nove strojne opreme znotraj določenega vozlišča.
  • Hadoop podpira hitrejšo porazdeljeno obdelavo podatkov.
  • Podatke shrani v gruči, ki je neodvisna od ostalih operacij.
  • Hadoop omogoča ustvarjanje 3 kopij za vsak blok z različnimi vozlišči.

15) Pojasnite glavne metode reduktorja

  • setup (): Uporablja se za konfiguriranje parametrov, kot so velikost vhodnih podatkov in porazdeljeni predpomnilnik.
  • cleanup (): Ta metoda se uporablja za čiščenje začasnih datotek.
  • reduce (): To je srce reduktorja, ki se pokliče enkrat na tipko s pripadajočo zmanjšano nalogo

16) Kaj je okrajšava od COSHH?

Okrajšava COSHH je Razpored na osnovi klasifikacije in optimizacije za heterogene sisteme Hadoop.

17) Pojasnite shemo zvezd

Shema zvezd ali shema zvezde je najpreprostejša vrsta sheme skladišča podatkov. Znana je kot shema zvezd, ker je po zgradbi podobna zvezdi. V shemi Star ima lahko središče zvezde eno tabelo dejstev in več povezanih tabel dimenzij. Ta shema se uporablja za poizvedovanje po velikih naborih podatkov.

18) Kako uporabiti rešitev za velike podatke?

Za uvedbo rešitve za velike podatke sledite naslednjim korakom.

1) Vključite podatke z uporabo podatkovnih virov, kot so RDBMS, SAP, MySQL, Salesforce

2) Izvlečene podatke shranite v bazo podatkov NoSQL ali HDFS.

3) Uvedite rešitev za velike podatke z uporabo procesnih okvirov, kot so Pig, Spark in MapReduce.

19) Pojasnite FSCK

Preverjanje datotečnega sistema ali FSCK je ukaz, ki ga uporablja HDFS. Ukaz FSCK se uporablja za preverjanje nedoslednosti in težav v datoteki.

20) Pojasnite shemo snežinke

Shema snežinke je razširitev sheme zvezd in dodaja dodatne dimenzije. Tako imenovana je snežinka, ker je njen diagram videti kot snežinka. Tabele dimenzij so normalizirane, kar podatke razdeli v dodatne tabele.

21) Razlikovanje sheme zvezd in snežink

zvezda Shema SnowFlake
Dimenzijske hierarhije so shranjene v dimenzijski tabeli. Vsaka hierarhija je shranjena v ločenih tabelah.
Verjetnost presežka podatkov je velika Verjetnosti presežka podatkov so majhne.
Ima zelo preprosto zasnovo DB Ima zapleteno zasnovo DB
Zagotovite hitrejši način obdelave kock Obdelava kocke je počasna zaradi zapletenega spajanja.

22) Pojasnite sistem distribuiranih datotek Hadoop

Hadoop deluje s prilagodljivimi porazdeljenimi datotečnimi sistemi, kot so S3, HFTP FS, FS in HDFS. Distribuirani datotečni sistem Hadoop je narejen v Googlovem datotečnem sistemu. Ta datotečni sistem je zasnovan tako, da ga je mogoče enostavno zagnati v veliki gruči računalniškega sistema.

23) Pojasnite glavne odgovornosti inženirja podatkov

Podatkovni inženirji imajo veliko odgovornosti. Upravljajo izvorni sistem podatkov. Podatkovni inženirji poenostavljajo zapleteno podatkovno strukturo in preprečujejo podvajanje podatkov. Velikokrat ponujajo tudi ELT in preoblikovanje podatkov.

24) Kakšna je celotna oblika PREJE?

Celotna oblika YARN je še en pogajalec o virih.

25) Naštejte različne načine v Hadoopu

Načini v Hadoopu so 1) Samostojni način 2) Pseudo porazdeljeni način 3) Popolnoma porazdeljen način.

26) Kako doseči varnost v Hadoopu?

Za doseganje varnosti v Hadoopu izvedite naslednje korake:

1) Prvi korak je zavarovanje kanala za preverjanje pristnosti odjemalca na strežniku. Stranki zagotovite časovni žig.

2) V drugem koraku stranka s prejetim časovnim žigom zaprosi TGS za servisno vozovnico.

3) V zadnjem koraku odjemalec uporabi vstopnico za samooverjanje določenega strežnika.

27) Kaj je Heartbeat v Hadoopu?

V Hadoopu NameNode in DataNode komunicirata med seboj. Srčni utrip je signal, ki ga DataNode redno pošilja v NameNode, da pokaže svojo prisotnost.

28) Razlikovanje med NAS in DAS v Hadoopu

NAS DAS
Kapaciteta shranjevanja je 10 9 do 10 12 bajtov. Kapaciteta shranjevanja je 10 9 bajtov.
Stroški upravljanja na GB so zmerni. Stroški upravljanja na GB so visoki.
Prenos podatkov po ethernetu ali TCP / IP. Prenos podatkov s pomočjo IDE / SCSI

29) Naštejte pomembna polja ali jezike, ki jih uporablja podatkovni inženir

Tu je nekaj polj ali jezikov, ki jih uporablja podatkovni inženir:

  • Verjetnost kot tudi linearna algebra
  • Strojno učenje
  • Analiza in regresija trendov
  • Zaprite zbirke podatkov QL in SQL

30) Kaj so veliki podatki?

Gre za veliko količino strukturiranih in nestrukturiranih podatkov, ki jih ni mogoče enostavno obdelati s tradicionalnimi metodami shranjevanja podatkov. Podatkovni inženirji uporabljajo Hadoop za upravljanje velikih podatkov.

31) Kaj je načrtovanje FIFO?

Gre za algoritem razporejanja Hadoop Job. V tem razporedu FIFO poročevalec izbere delovna mesta iz delovne čakalne vrste, najprej najstarejšega.

32) Omenite privzete številke vrat, na katerih sledilnik opravil, NameNode in sledilnik opravil deluje v Hadoopu

Privzete številke vrat, na katerih se v Hadoopu izvajajo sledilnik opravil, NameNode in sledilnik opravil, so naslednje:

  • Sledilnik opravil deluje na vratih 50060
  • NameNode deluje na vratih 50070
  • Job Tracker deluje na vratih 50030

33) Kako onemogočiti optični bralnik na podatkovnem vozlišču HDFS

Če želite onemogočiti optični bralnik na podatkovnem vozlišču HDFS, nastavite dfs.datanode.scan.period.hours na 0.

34) Kako določiti razdaljo med dvema vozliščema v Hadoopu?

Razdalja je enaka vsoti razdalje do najbližjih vozlišč. Metoda getDistance () se uporablja za izračun razdalje med dvema vozliščema.

35) Zakaj uporabljati osnovno strojno opremo v Hadoopu?

Blago za strojno opremo je enostavno dobiti in cenovno dostopno. Gre za sistem, ki je združljiv z Windows, MS-DOS ali Linuxom.

36) Določite faktor replikacije v HDFS

Faktor replikacije je skupno število kopij datoteke v sistemu.

37) Kateri podatki so shranjeni v NameNode?

Namenode shrani metapodatke za HDFS, kot so informacije o blokih in informacije o imenskem prostoru.

38) Kaj misliš pod Rack Awareness?

V gruči Haddop Namenode uporablja Datanode za izboljšanje omrežnega prometa med branjem ali zapisovanjem katere koli datoteke, ki je bližje bližnjemu stojalu za zahtevo za branje ali pisanje. Namenode vzdržuje ID regala vsakega DataNode, da doseže informacije o regalih. Ta koncept se imenuje Rack Awareness in Hadoop.

39) Kakšne so funkcije Secondary NameNode?

Sledijo funkcije Secondary NameNode:

  • FsImage, ki hrani kopijo datoteke EditLog in FsImage.
  • Zrušitev NameNode: Če se NameNode zruši, lahko FsImage sekundarnega NameNode uporabite za ponovno ustvarjanje NameNode.
  • Kontrolna točka: Sekundarno ImeNode uporablja za potrditev, da podatki niso poškodovani v HDFS.
  • Posodobitev: samodejno posodobi datoteko EditLog in FsImage. Pomaga pri posodabljanju datoteke FsImage na Secondary NameNode.

40) Kaj se zgodi, ko NameNode ne deluje in uporabnik odda novo opravilo?

NameNode je ena točka napake v Hadoopu, tako da uporabnik ne more predložiti novega opravila in ga ne more izvršiti. Če NameNode ne deluje, potem opravilo morda ne bo uspelo, ker mora uporabnik počakati, da se NameNode ponovno zažene, preden zažene katero koli opravilo.

41) Katere so osnovne faze reduktorja v Hadoopu?

V Hadoopu obstajajo tri osnovne faze reduktorja:

1. Naključno predvajanje: tukaj Reducer kopira izhod iz Mapperja.

2. Razvrsti: Hadoop razvrsti vhod na reduktor z isto tipko.

3. Zmanjšaj: V tej fazi se izhodne vrednosti, povezane s ključem, zmanjšajo za konsolidacijo podatkov v končni izhod.

42) Zakaj Hadoop uporablja objekt Context?

Hadoop ogrodje uporablja objekt Context z razredom Mapper za interakcijo s preostalim sistemom. Kontekstni objekt dobi v konstruktorju podrobnosti o konfiguraciji sistema in opravilo.

Objekt Context uporabljamo za posredovanje informacij v metodah setup (), cleanup () in map (). Ta predmet daje pomembne informacije na voljo med operacijami na zemljevidu.

43) Določite kombinacijo v Hadoopu

To je neobvezen korak med Map in Reduce. Combiner prevzame izhod iz funkcije Map, ustvari pare ključev in jih pošlje Hadoop Reducerju. Naloga kombiniralca je, da z enakim ključem strne končni rezultat iz Zemljevida v zbirne zapise.

44) Kateri privzeti faktor replikacije je na voljo v HDFS Kaj označuje?

Privzeti faktor podvajanja, ki je na voljo v HDFS, je tri. Privzeti faktor podvajanja pomeni, da bodo za vsak podatek tri replike.

45) Kako mislite lokacijo podatkov v Hadoopu?

V sistemu velikih podatkov je velikost podatkov ogromna, zato podatkov ni smiselno premikati po omrežju. Zdaj Hadoop skuša računalništvo približati podatkom. Tako ostanejo podatki shranjeni na lokalnem mestu.

46) Določite izravnalnik v HDFS

V HDFS je uravnoteževalnik skrbniški sistem, ki ga skrbniško osebje uporablja za ponovno uravnoteženje podatkov med DataNodes in premakne bloke iz preveč izkoriščenih v premalo izkoriščena vozlišča.

47) Pojasnite varni način v HDFS

To je način branja NameNode v gruči samo za branje. Sprva je NameNode v Safemode. Preprečuje zapisovanje v datotečni sistem v Safemode. Trenutno zbira podatke in statistiko iz vseh DataNodes.

48) Kakšen je pomen porazdeljenega predpomnilnika v Apache Hadoop?

Hadoop ima uporabno funkcijo tako imenovanega porazdeljenega predpomnilnika, ki izboljša delovanje opravil s predpomnjenjem datotek, ki jih uporabljajo aplikacije. Aplikacija lahko določi datoteko za predpomnilnik s pomočjo konfiguracije JobConf.

Hadoop framework naredi replike teh datotek na vozlišča, ki jih je treba izvesti. To se naredi pred začetkom izvajanja naloge. Distributed Cache podpira distribucijo datotek samo za branje, kot tudi stiskalnic in datotek kozarcev.

49) Kaj je Metastore v panju?

Shranjuje shemo in mesto tabele Panj.

Tabela panjev opredeljuje, preslikave in metapodatke, ki so shranjeni v Metastoreu. To lahko shranite v RDBMS, ki ga podpira JPOX.

50) Kaj pomeni izraz SerDe v panju?

SerDe je kratko ime za Serializer ali Deserializer. V panju omogoča SerDe branje podatkov iz tabele v določeno polje in pisanje v katero koli obliko, ki jo želite.

51) Seznam komponent, ki so na voljo v podatkovnem modelu Hive

V podatkovnem modelu Hive so naslednje komponente:

  • Mize
  • Predelne stene
  • Žlice

52) Pojasnite uporabo panja v ekosistemu Hadoop.

Hive ponuja vmesnik za upravljanje podatkov, shranjenih v ekosistemu Hadoop. Panj se uporablja za preslikavo in delo s tabelami HBase. Poizvedbe panj se pretvorijo v opravila MapReduce, da se skrije zapletenost, povezana z ustvarjanjem in izvajanjem opravil MapReduce.

53) Hive podpira seznam različnih zapletenih podatkovnih vrst / zbirk

Panj podpira naslednje zapletene vrste podatkov:

  • Zemljevid
  • Struktura
  • Matrika
  • Unije

54) Pojasnite, kako se uporablja datoteka .hiverc v panju?

V panju je .hiverc datoteka za inicializacijo. Ta datoteka se prvotno naloži, ko zaženemo vmesnik ukazne vrstice (CLI) za Hive. Začetne vrednosti parametrov lahko nastavimo v datoteki .hiverc.

55) Ali je mogoče v Hive ustvariti več tabel za eno podatkovno datoteko?

Da, za podatkovno datoteko lahko izdelamo več shem tabel. Shema shrani shemo v Hive Metastore. Na podlagi te sheme lahko iz istih podatkov pridobimo različne rezultate.

56) Pojasnite različne izvedbe SerDe, ki so na voljo v Hive

V Hive je na voljo veliko izvedb SerDe. Lahko tudi napišete svojo izvedbo SerDe po meri. Sledi nekaj znanih izvedb SerDe:

  • OpenCSVSerde
  • RegexSerDe
  • RazmejenoJSONSerDe
  • ByteStreamTypedSerDe

57) Seznam funkcij za ustvarjanje tabel, ki so na voljo v Hive

Sledi seznam funkcij za ustvarjanje tabel:

  • Eksplodiraj (matrika)
  • JSON_tuple ()
  • Sklad ()
  • Eksplodiraj (zemljevid)

58) Kaj je poševna miza v panju?

Poševna tabela je tabela, ki pogosteje vsebuje vrednosti stolpcev. Ko v Hiveju določimo tabelo kot SKEWED med ustvarjanjem, se poševne vrednosti zapišejo v ločene datoteke, preostale vrednosti pa gredo v drugo datoteko.

59) Naštejte predmete, ustvarjene s stavkom create v MySQL.

Predmeti, ustvarjeni s stavkom create v MySQL, so naslednji:

  • Zbirka podatkov
  • Kazalo
  • Tabela
  • Uporabnik
  • Postopek
  • Sprožilec
  • Dogodek
  • Pogled
  • Funkcija

60) Kako videti strukturo baze podatkov v MySQL?

Če si želite ogledati strukturo baze podatkov v MySQL, lahko uporabite

Ukaz DESCRIBE. Sintaksa tega ukaza je DESCRIBE ime tabele ;.

61) Kako iskati določen niz v stolpcu tabele MySQL?

Uporabite operator regularnega izraza za iskanje String v stolpcu MySQL. Tu lahko določimo tudi različne vrste regularnih izrazov in poiščemo uporabo regularnega izraza.

62) Pojasnite, kako lahko analitika podatkov in veliki podatki povečajo prihodek podjetja?

Sledijo načini, kako lahko analitika podatkov in veliki podatki povečajo prihodek podjetja:

  • Podatke učinkovito uporabljajte, da zagotovite rast podjetja.
  • Povečajte vrednost kupca.
  • Preusmeritev analitičnega za izboljšanje napovedi glede števila zaposlenih.
  • Zmanjšanje proizvodnih stroškov organizacij.