Top 60 Hadoop & Vprašanja za intervju z MapReduce & Odgovori

Prenesite PDF

Sledijo pogosta vprašanja v intervjujih za sveže in izkušene razvijalce.

1) Kaj je Hadoop Map Reduce?

Za vzporedno obdelavo velikih naborov podatkov v gruči Hadoop se uporablja ogrodje Hadoop MapReduce. Analiza podatkov uporablja dvostopenjski zemljevid in postopek zmanjšanja.

2) Kako deluje Hadoop MapReduce?

V MapReduce med fazo zemljevida prešteje besede v vsakem dokumentu, medtem ko v fazi zmanjšanja združuje podatke glede na dokument, ki obsega celotno zbirko. Med fazo zemljevida so vhodni podatki razdeljeni na razdelke za analizo z nalogami zemljevidov, ki se vzporedno izvajajo prek okvira Hadoop.

3) Pojasnite, kaj se premeša v MapReduce?

Postopek, s katerim sistem izvede razvrščanje in prenese izhode zemljevida na reduktor, saj so vhodi znani kot mešanje

4) Pojasnite, kaj je razdeljeni predpomnilnik v MapReduce Framework?

Porazdeljeni predpomnilnik je pomembna lastnost, ki jo zagotavlja ogrodje MapReduce. Ko želite deliti nekatere datoteke med vsemi vozlišči v Hadoop Cluster, se uporablja porazdeljeni predpomnilnik. Datoteke so lahko izvedljive datoteke jar ali datoteke preprostih lastnosti.

5) Pojasnite, kaj je NameNode v Hadoopu?

NameNode v Hadoopu je vozlišče, kjer Hadoop shrani vse podatke o lokaciji datoteke v HDFS (Hadoop Distributed File System). Z drugimi besedami, NameNode je osrednji del datotečnega sistema HDFS. Hrani evidenco vseh datotek v datotečnem sistemu in sledi datotekam v gruči ali več strojih

6) Pojasnite, kaj je JobTracker v Hadoopu? Katere akcije Hadoop sledi?

V Hadoopu za pošiljanje in sledenje opravil MapReduce se uporablja JobTracker. Sledilnik opravil se izvaja v lastnem postopku JVM

Sledilnik opravil v Hadoopu izvaja naslednja dejanja

Strankina prijava pošlje delovna mesta v sledilnik opravil
JobTracker komunicira z imenom Name, da določi lokacijo podatkov
V bližini podatkov ali z razpoložljivimi režami JobTracker najde vozlišča TaskTracker
Na izbranih vozliščih TaskTracker odda delo
Ko opravilo ne uspe, sledilnik opravil obvesti in se odloči, kaj potem storiti.
Vozlišča TaskTracker nadzira JobTracker

7) Pojasnite, kaj je srčni utrip v HDFS?

Heartbeat se nanaša na signal, ki se uporablja med podatkovnim vozliščem in vozliščem imena ter med sledilnikom opravil in sledilnikom opravil, če se vozlišče imena ali sledilnik opravil ne odzove na signal, se šteje, da obstaja nekaj težav s podatkovnim vozliščem ali opravilom. sledilnik

8) Pojasnite, kaj so kombiniralci in kdaj naj uporabite kombiniralnik v opravilu MapReduce?

Za povečanje učinkovitosti programa MapReduce se uporabljajo kombiniralci. Količino podatkov lahko zmanjšate s pomočjo kombiniranja, ki jih je treba prenesti na reduktorje. Če je izvedena operacija komutativna in asociativna, lahko kodo reduktorja uporabite kot kombiniralec. Izvedba kombinacije v Hadoopu ni zagotovljena

9) Kaj se zgodi, ko podatkovno vozlišče odpove?

Ko podatkovno vozlišče ne uspe

Jobtracker in namenode odkrijeta napako
Na neuspelem vozlišču so vsa opravila znova razporejena
Namenode podvaja uporabniške podatke na drugo vozlišče

10) Pojasnite, kaj je špekulativna izvršba?

V Hadoopu med špekulativno izvedbo se zažene določeno število podvojenih nalog. Na drugem podrejenem vozlišču je mogoče s pomočjo Speculative Execution izvršiti več kopij istega zemljevida ali naloge reduciranja Z enostavnimi besedami, če določen pogon dolgo časa dokonča nalogo, bo Hadoop ustvaril podvojene naloge na drugem disku. Disk, ki opravi nalogo najprej, se zadrži, diski, ki ne končajo prvi, pa se ubijejo.

11) Pojasnite, kateri so osnovni parametri Mapperja?

Osnovni parametri Mapperja so

LongWritable in Text
Besedilo in Zapisljivo

12) Pojasnite, kakšna je funkcija razdelilnika MapReduce?

Funkcija particionerja MapReduce je zagotoviti, da gre vsa vrednost enega ključa na isti reduktor, kar sčasoma pomaga enakomerno porazdeliti izhod zemljevida po reduktorjih

13) Pojasnite, kakšna je razlika med vhodnim deljenjem in blokom HDFS?

Logična delitev podatkov je znana kot Split, fizična delitev podatkov pa HDFS Block

14) Pojasnite, kaj se zgodi v besedilni obliki?

V obliki vnosa besedila je vsaka vrstica v besedilni datoteki zapis. Vrednost je vsebina vrstice, medtem ko je Key odmik bajtov vrstice. Na primer Key: longWritable, Value: text

15) Omenite, katere glavne konfiguracijske parametre mora uporabnik določiti za zagon opravila MapReduce?

Uporabnik ogrodja MapReduce mora določiti

Lokacije vnosa posla v porazdeljenem datotečnem sistemu
Izhodna lokacija opravila v porazdeljenem datotečnem sistemu
Vhodna oblika
Izhodna oblika
Razred, ki vsebuje funkcijo zemljevida
Razred, ki vsebuje funkcijo redukcije
Datoteka JAR, ki vsebuje razrede mapperja, reduktorja in gonilnikov

16) Pojasnite, kaj je WebDAV v Hadoopu?

Za podporo urejanju in posodabljanju datotek je WebDAV nabor razširitev HTTP. V večini operacijskih sistemov je mogoče delnice WebDAV namestiti kot datotečne sisteme, zato je do HDFS mogoče dostopati kot standardni datotečni sistem, tako da HDFS razkrijete prek WebDAV.

17) Pojasnite, kaj je Sqoop v Hadoopu?

Za prenos podatkov med relacijskim upravljanjem baz podatkov (RDBMS) in Hadoop HDFS se uporablja orodje, znano kot Sqoop. Podatke Sqoop lahko prenesete iz RDMS, kot sta MySQL ali Oracle, v HDFS in izvozite podatke iz datoteke HDFS v RDBMS

18) Pojasnite, kako JobTracker načrtuje opravilo?

Sledilnik opravil pošlje sporočila srčnega utripa Jobtrackerju običajno vsakih nekaj minut, da se prepriča, ali je JobTracker aktiven in deluje. Sporočilo JobTracker obvešča tudi o številu razpoložljivih slotov, tako da lahko JobTracker ostane na tekočem s tem, v katerem je mogoče delo grozda prenesti

19) Pojasnite, kaj je Sequencefileinputformat?

Sequencefileinputformat se uporablja za zaporedno branje datotek. To je posebna stisnjena oblika binarne datoteke, ki je optimizirana za posredovanje podatkov med izhodom enega opravila MapReduce na vhod nekega drugega opravila MapReduce.

20) Pojasnite, kaj počne razred conf.setMapper?

Conf.setMapperclass nastavi razred mapperja in vse stvari, povezane z opravilom na zemljevidu, na primer branje podatkov in generiranje para ključ-vrednost iz mapperja

21) Pojasnite, kaj je Hadoop?

Je odprtokodni programski okvir za shranjevanje podatkov in izvajanje aplikacij na grozdih blagovne strojne opreme. Omogoča izjemno procesorsko moč in obsežno shranjevanje vseh vrst podatkov.

22) Omenite, kakšna je razlika med RDBMS in Hadoop?

RDBMS	Hadoop
RDBMS je sistem za upravljanje relacijske baze podatkov	Hadoop je ploska struktura, ki temelji na vozlišču
Uporabljal se je za obdelavo OLTP, medtem ko Hadoop	Trenutno se uporablja za analitično obdelavo in obdelavo BIG DATA
V RDBMS gruča baz podatkov uporablja iste podatkovne datoteke, shranjene v skupnem pomnilniku	V Hadoopu lahko podatke o pomnilniku shranimo neodvisno v vsakem vozlišču za obdelavo.
Pred shranjevanjem morate podatke predhodno obdelati	vam ni treba predhodno obdelati podatkov, preden jih shranite

23) Omenite osnovne komponente Hadoop?

Jedrne komponente Hadoop vključujejo,

HDFS
MapReduce

24) Kaj je NameNode v Hadoopu?

NameNode v Hadoopu Hadoop shrani vse podatke o lokaciji datoteke v HDFS. Je glavno vozlišče, na katerem deluje sledilnik opravil in je sestavljen iz metapodatkov.

25) Omenite, katere podatkovne komponente uporablja Hadoop?

Podatkovne komponente, ki jih uporablja Hadoop, so

Prašič
Panj

26) Omenite, katero komponento za shranjevanje podatkov uporablja Hadoop?

Komponenta za shranjevanje podatkov, ki jo uporablja Hadoop, je HBase.

27) Omenite, katere najpogostejše oblike vnosa so opredeljene v Hadoopu?

Najpogostejši vhodni formati, opredeljeni v Hadoop, so;

TextInputFormat
KeyValueInputFormat
SequenceFileInputFormat

28) Kaj je v Hadoopu InputSplit?

Vhodne datoteke razdeli na koščke in vsak razdelil dodeli preslikavcu za obdelavo.

29) Kako boste za delo Hadoop napisali particijo po meri?

Če napišete particijo po meri za opravilo Hadoop, sledite naslednji poti

Ustvarite nov razred, ki razširja razred particionerja
Preglasi metodo getPartition
V ovoju, v katerem se izvaja MapReduce
Dodajte razdelilnik po meri v opravilo z uporabo nabora metod Partitioner Class ali - dodajte razdelilnik po meri v opravilo kot konfiguracijsko datoteko

30) Ali je za delovno mesto v Hadoopu mogoče spremeniti število ustvarjalcev map?

Ne, ni mogoče spremeniti števila ustvarjalcev map. Število preslikav je določeno s številom vhodnih delitev.

31) Pojasnite, kaj je datoteka zaporedja v Hadoopu?

Za shranjevanje binarnih parov ključ / vrednost se uporablja zaporedna datoteka. Za razliko od običajne stisnjene datoteke zaporedna datoteka podpira delitev, tudi če so podatki v njej stisnjeni.

32) Ko Namenode ne deluje, kaj se zgodi s sledilcem zaposlitve?

Namenode je edina točka okvare v HDFS, zato se bo, ko Namenode pade, vaša grozd sprožila.

33) Pojasnite, kako se izvaja indeksiranje v HDFS?

Hadoop ima edinstven način indeksiranja. Ko so podatki shranjeni glede na velikost bloka, bo HDFS še naprej shranjeval zadnji del podatkov, ki pravi, kje bo naslednji del podatkov.

34) Pojasnite, ali je mogoče po nadomestnih znakih iskati datoteke?

Da, datoteke je mogoče iskati z nadomestnimi znaki.

35) Naštejte tri konfiguracijske datoteke Hadoopa?

Tri konfiguracijske datoteke so

core-site.xml
mapred-site.xml
hdfs-site.xml

36) Pojasnite, kako lahko z ukazom jps preverite, ali Namenode deluje poleg tega?

Poleg uporabe ukaza jps lahko za preverjanje, ali Namenode deluje, uporabite tudi

/etc/init.d/hadoop-0.20-namenode status.

37) Pojasnite, kaj je "zemljevid" in kaj "reduktor" v Hadoopu?

V Hadoopu je zemljevid faza reševanja poizvedb HDFS. Zemljevid bere podatke z vhodne lokacije in izpiše par vrednosti ključev glede na vrsto vnosa.

V Hadoopu reduktor zbira izhodne podatke, ki jih ustvari mapper, jih obdeluje in ustvari svoj končni izhod.

38) Katera datoteka v Hadoopu nadzoruje poročanje v Hadoopu?

V Hadoopu datoteka hadoop-metrics.properties nadzoruje poročanje.

39) Za uporabo seznama Hadoop omrežne zahteve?

Za uporabo Hadoopa je seznam omrežnih zahtev:

SSH povezava brez gesla
Secure Shell (SSH) za zagon strežniških procesov

40) Omenite, kaj je ozaveščenost o regalih?

Ozaveščenost o regalih je način, na katerega namenode določa, kako postaviti bloke na podlagi definicij stojala.

41) Pojasnite, kaj je sledilnik opravil v Hadoopu?

Sledilnik opravil v Hadoopu je demon podrejenega vozlišča v gruči, ki sprejema naloge iz JobTrackerja. Prav tako vsakih nekaj minut pošlje sporočila srčnega utripa JobTrackerju, da potrdi, da je JobTracker še vedno živ.

42) Omenite, kateri demoni se izvajajo na glavnem vozlišču in podrejenem vozlišču?

Demoni, ki se izvajajo na glavnem vozlišču, so "NameNode"
Demoni, ki se izvajajo na vsakem podrejenem vozlišču, so »Sledilnik opravil« in »Podatki«

43) Pojasnite, kako lahko razhranite kodo Hadoop?

Priljubljene metode za odpravljanje napak Hadoop kode so:

Z uporabo spletnega vmesnika, ki ga zagotavlja Hadoop framework
Z uporabo števcev

44) Pojasnite, kaj so vozlišča za shranjevanje in računanje?

Shranjevalno vozlišče je naprava ali računalnik, v katerem je vaš datotečni sistem za shranjevanje podatkov obdelave
Računsko vozlišče je računalnik ali stroj, v katerem se bo izvajala vaša dejanska poslovna logika.

45) Omenite, kakšna je uporaba kontekstnega predmeta?

Kontekstni objekt omogoča preslikavcu interakcijo s preostalim delom Hadoopa

sistem. Vključuje konfiguracijske podatke za opravilo in vmesnike, ki mu omogočajo oddajanje izhodnih podatkov.

46) Omenite, kaj je naslednji korak po Mapperju ali MapTasku?

Naslednji korak po Mapperju ali MapTasku je, da so izhodni podatki Mapperja razvrščeni in bodo za izhod ustvarjene particije.

47) Omenite, koliko je privzetih particij v Hadoopu?

V Hadoopu je privzeti particijski razdelilnik »Hash«.

48) Pojasnite, kaj je namen programa RecordReader v Hadoopu?

V programu Hadoop RecordReader naloži podatke iz svojega vira in jih pretvori v pare (ključ, vrednost), primerne za branje s strani Mapper.

49) Pojasnite, kako so podatki razdeljeni, preden so poslani reduktorju, če v Hadoopu ni definiran noben razdelilnik po meri?

Če v Hadoopu ni definiran noben razdelilnik po meri, potem privzeti razdelilnik izračuna vrednost zgoščevanja za ključ in na podlagi rezultata dodeli particijo.

50) Pojasnite, kaj se zgodi, ko je Hadoop ustvaril 50 opravil za delo in ena od nalog ni uspela?

Naloga bo znova zagnala na katerem koli drugem TaskTrackerju, če opravilo ne uspe več, kot je določeno.

51) Omenite, kateri je najboljši način za kopiranje datotek med gručami HDFS?

Najboljši način za kopiranje datotek med gručami HDFS je uporaba več vozlišč in ukaza distcp, tako da se delovna obremenitev deli.

52) Omenite, kakšna je razlika med HDFS in NAS?

Podatkovni bloki HDFS se porazdelijo po lokalnih pogonih vseh strojev v gruči, medtem ko so podatki NAS shranjeni na namenski strojni opremi.

53) Omenite, kako se Hadoop razlikuje od drugih orodij za obdelavo podatkov?

V Hadoopu lahko povečate ali zmanjšate število preslikav, ne da bi vas skrbela količina podatkov, ki jih je treba obdelati.

54) Omenite, katero delo opravlja pouk conf?

Razred Job conf ločuje različna opravila, ki se izvajajo v isti gruči. Opravlja nastavitve na ravni opravila, na primer prijavo za delo v resničnem okolju.

55) Omenite, kaj je pogodba API-jev Hadoop MapReduce za ključ in vrednostni razred?

Za ključ in vrednostni razred obstajata dve pogodbi za API-je Hadoop MapReduce

Vrednost mora definirati vmesnik org.apache.hadoop.io.Writable
Ključ mora biti definiranje vmesnika org.apache.hadoop.io.WritableComparable

56) Omenite, kateri so trije načini, v katerih je mogoče zagnati Hadoop?

Trije načini, v katerih je mogoče zagnati Hadoop, so

Psevdo porazdeljen način
Samostojni (lokalni) način
Popolnoma porazdeljen način

57) Omenite, kaj počne oblika vnosa besedila?

Oblika vnosa besedila bo ustvarila vrstni objekt, ki je šestnajstiško število. Vrednost se obravnava kot besedilo celotne vrstice, medtem ko se ključ šteje kot predmet vrstice. Mapper bo vrednost prejel kot parameter 'text', medtem ko bo ključ kot parameter 'longwriteable'.

58) Omenite, koliko InputSplits izdela Hadoop Framework?

Hadoop bo naredil 5 delitev

1 delitev za 64K datotek
2 razdelka za datoteke velikosti 65 MB
2 deli za 127 MB datotek

59) Omenite, kaj je razdeljeni predpomnilnik v Hadoopu?

Porazdeljeni predpomnilnik v Hadoopu je objekt, ki ga zagotavlja okvir MapReduce. V času izvajanja opravila se uporablja za predpomnjenje datoteke. Framework kopira potrebne datoteke v podrejeno vozlišče pred izvajanjem katere koli naloge na tem vozlišču.

60) Pojasnite, kako ima Hadoop Classpath ključno vlogo pri zaustavljanju ali zagonu demonov Hadoop?

Classpath bo sestavljal seznam imenikov, ki vsebujejo datoteke jar za zaustavitev ali zagon demonov.