Top 50 vprašanj in odgovorov za intervju z znanostjo o podatkih

Anonim

Sledijo pogosta vprašanja na razgovorih za službo za sveže in izkušene Data Scientist.

1. Kaj je Data Science?

Data Science je kombinacija algoritmov, orodij in tehnike strojnega učenja, ki vam pomaga najti skupne skrite vzorce iz danih surovih podatkov.

2. Kaj je logistična regresija v Data Science?

Logistična regresija se imenuje tudi kot logit model. Je metoda za napovedovanje binarnega izida iz linearne kombinacije napovedovalnih spremenljivk.

3. Navedite tri vrste pristranskosti, ki se lahko pojavijo med vzorčenjem

V postopku vzorčenja obstajajo tri vrste pristranskosti, ki so:

  • Izbirna pristranskost
  • Pod pristranskostjo
  • Napetost preživetja

4. Pogovorite se o algoritmu odločitvenega drevesa

Drevo odločanja je priljubljen nadzorovani algoritem strojnega učenja. Uporablja se predvsem za regresijo in klasifikacijo. Omogoča razčlenitev nabora podatkov na manjše podnabore. Drevo odločanja lahko obdeluje tako kategorične kot tudi numerične podatke.

5. Kaj je prednostna verjetnost in verjetnost?

Predhodna verjetnost je delež odvisne spremenljivke v naboru podatkov, verjetnost pa verjetnost uvrstitve danega opazovalca v prisotnost neke druge spremenljivke.

6. Pojasnite sisteme priporočil?

Je podrazred tehnik filtriranja informacij. Pomaga vam napovedati nastavitve ali ocene, ki bi jih uporabniki verjetno dali izdelku.

7. Navedite tri slabosti uporabe linearnega modela

Tri pomanjkljivosti linearnega modela so:

  • Predpostavka linearnosti napak.
  • Tega modela ne morete uporabljati za binarne rezultate ali štetje rezultatov
  • Obstaja veliko težav s prekomerno opremljenostjo, ki jih ne more rešiti

8. Zakaj morate izvesti ponovno vzorčenje?

Vzorčenje se izvede v spodaj navedenih primerih:

  • Ocenjevanje natančnosti vzorčnih statistik z naključnim risanjem z nadomestitvijo iz niza podatkovnih točk ali uporabo kot podmnožice dostopnih podatkov
  • Zamenjava nalepk na podatkovnih točkah pri izvajanju potrebnih preskusov
  • Preverjanje modelov z uporabo naključnih podnaborov

9. Naštejte knjižnice v Pythonu, ki se uporabljajo za analizo podatkov in znanstvene izračune.

  • SciPy
  • Pande
  • Matplotlib
  • NumPy
  • SciKit
  • Seaborn

10. Kaj je analiza moči?

Analiza moči je sestavni del eksperimentalne zasnove. Pomaga vam določiti velikost vzorca, ki je potrebna za ugotavljanje učinka dane velikosti iz vzroka s posebno stopnjo zanesljivosti. Omogoča tudi razmestitev določene verjetnosti v omejitvi velikosti vzorca.

11. Pojasnite filtriranje sodelovanja

Skupno filtriranje, ki se uporablja za iskanje pravilnih vzorcev s sodelovanjem stališč, več virov podatkov in različnih agentov.

12. Kaj je pristranskost?

Pristranskost je napaka, ki je bila v vašem modelu uvedena zaradi preveč poenostavitve algoritma strojnega učenja.

13. Pogovor o 'Naive' v algoritmu Naive Bayes?

Model naivnega Bayesovega algoritma temelji na Bayesovem teoremu. Opisuje verjetnost dogodka. Temelji na predhodnem poznavanju pogojev, ki bi lahko bili povezani s tem določenim dogodkom.

14. Kaj je linearna regresija?

Linearna regresija je metoda statističnega programiranja, pri kateri se ocena spremenljivke "A" napove na podlagi ocene druge spremenljivke "B". B se imenuje napovedovalna spremenljivka, A pa kot merilna spremenljivka.

15. Navedite razliko med pričakovano in srednjo vrednostjo

Razlik sicer ni veliko, vendar se oba izraza uporabljata v različnih kontekstih. Na povprečno vrednost se običajno sklicujemo, ko razpravljamo o porazdelitvi verjetnosti, medtem ko je pričakovana vrednost navedena v okviru naključne spremenljivke.

16. Kaj je namen izvedbe A / B testiranja?

AB testiranje, ki se uporablja za izvajanje naključnih poskusov z dvema spremenljivkama, A in B. Cilj te metode testiranja je ugotoviti spremembe na spletni strani, da bi povečali ali povečali rezultat strategije.

17. Kaj je učenje z ansamblom?

Ansambel je metoda združevanja raznolikih učencev, da bi improvizirali stabilnost in napovedno moč modela. Dve vrsti metod učenja Ensemble sta:

Vreča

Metoda vreče vam pomaga pri izvajanju podobnih učencev na majhnih vzorčnih populacijah. Pomaga vam bližje napovedovati.

Povečanje

Povečanje je iterativna metoda, ki vam omogoča prilagajanje teže opazovanja, odvisno od zadnje razvrstitve. Povečanje zmanjša napako pristranskosti in vam pomaga zgraditi močne napovedne modele.

18. Pojasnite lastno vrednost in lastni vektor

Lastni vektorji so namenjeni razumevanju linearnih transformacij. Podatkovni znanstvenik mora izračunati lastne vektorje za kovariančno matriko ali korelacijo. Lastne vrednosti so smeri skupaj z uporabo posebnih linearnih transformacijskih aktov s stiskanjem, obračanjem ali raztezanjem.

19. Določite izraz navzkrižno preverjanje

Navzkrižna validacija je tehnika validacije za ocenjevanje, kako se bodo rezultati statistične analize posplošili za neodvisen nabor podatkov. Ta metoda se uporablja v ozadju, kjer je cilj napovedan, zato je treba oceniti, kako natančno bo model dosegel.

20. Pojasnite korake za projekt analize podatkov

V analitičnem projektu so pomembni naslednji koraki:

  • Razumevanje poslovnega problema
  • Raziščite podatke in jih natančno preučite.
  • Pripravite podatke za modeliranje tako, da poiščete manjkajoče vrednosti in spremenite spremenljivke.
  • Začnite izvajati model in analizirajte rezultat velikih podatkov.
  • Potrdite model z novim naborom podatkov.
  • Izvedite model in spremljajte rezultat, da analizirate uspešnost modela za določeno obdobje.

21. Pogovorite se o umetnih nevronskih mrežah

Umetna nevronska omrežja (ANN) so poseben sklop algoritmov, ki so revolucionirali strojno učenje. Pomaga vam pri prilagajanju glede na spreminjanje vnosa. Tako omrežje ustvari najboljši možni rezultat brez preoblikovanja izhodnih meril.

22. Kaj je razmnoževanje hrbta?

Razmnoževanje nazaj je bistvo treninga nevronskih mrež. Metoda uglaševanja uteži nevronske mreže je odvisna od stopnje napak, pridobljene v prejšnji epohi. Pravilna nastavitev pomoči vam pomaga zmanjšati stopnjo napak in s povečanjem njegove posploševanja narediti model zanesljiv.

23. Kaj je naključni gozd?

Naključni gozd je metoda strojnega učenja, ki vam pomaga pri izvajanju vseh vrst regresijskih in klasifikacijskih nalog. Uporablja se tudi za obravnavo manjkajočih vrednosti in izstopajočih vrednosti.

24. Kakšen pomen ima pristranskost pri izbiri?

Izbirna pristranskost se pojavi, kadar pri izbiranju posameznikov ali skupin ali podatkov, ki jih je treba analizirati, ni dosežena posebna randomizacija. Nakazuje, da dani vzorec ne predstavlja natančno populacije, ki naj bi bila analizirana.

25. Kaj je metoda združevanja K-pomeni?

Skupina K-pomeni je pomembna nenadzorovana učna metoda. Tehnika razvrščanja podatkov z uporabo določenega nabora grozdov se imenuje K grozdi. Uvedena je za razvrščanje v skupine, da se ugotovi podobnost podatkov.

26. Pojasnite razliko med Data Science in Data Analytics

Podatkovni znanstveniki morajo podatke razrezati, da pridobijo dragocene vpoglede, ki jih podatkovni analitik lahko uporabi za realne poslovne scenarije. Glavna razlika med obema je, da imajo podatkovni znanstveniki več tehničnega znanja kot poslovni analitik. Poleg tega ne potrebujejo razumevanja posla, potrebnega za vizualizacijo podatkov.

27. Pojasnite vrednost p?

Ko izvajate preizkus hipoteze v statistiki, vam vrednost p omogoča določitev moči vaših rezultatov. To je številčno število med 0 in 1. Na podlagi vrednosti vam bo pomagalo označiti moč določenega rezultata.

28. Opredelite pojem globoko učenje

Poglobljeno učenje je podvrsta strojnega učenja. Ukvarja se z algoritmi, ki jih navdihuje struktura, imenovana umetne nevronske mreže (ANN).

29. Pojasnite metodo zbiranja in analiziranja podatkov za uporabo socialnih medijev za napovedovanje vremenskih razmer.

Podatke v družabnih omrežjih lahko zbirate s pomočjo Facebooka, Twitterja, Instagram-ovih API-jev. Na primer, za visokotonec lahko sestavimo funkcijo iz vsakega tvita, kot so datum tweeta, retweets, seznam sledilcev itd. Nato lahko za napovedovanje vremenskih razmer uporabimo model večvariatnih časovnih vrst.

30. Kdaj morate posodobiti algoritem v podatkovni znanosti?

V naslednjem primeru morate posodobiti algoritem:

  • Želite, da se vaš podatkovni model razvija kot podatkovni tokovi z uporabo infrastrukture
  • Osnovni vir podatkov se spreminja

    Če gre za nestacionarnost

31. Kaj je običajna distribucija

Normalna porazdelitev je niz neprekinjene spremenljivke, razpršene po normalni krivulji ali v obliki zvončaste krivulje. Lahko jo štejete za stalno porazdelitev verjetnosti, ki je koristna v statistiki. Koristno je analizirati spremenljivke in njihove odnose, ko uporabljamo krivuljo normalne porazdelitve.

32. Kateri jezik je najboljši za analitiko besedila? R ali Python?

Python bo bolj primeren za analitiko besedila, saj je sestavljen iz bogate knjižnice, znane kot pande. Omogoča uporabo visokokakovostnih orodij za analizo podatkov in struktur podatkov, medtem ko R te funkcije ne ponuja.

33. Pojasnite prednosti uporabe statistike s strani podatkovnih znanstvenikov

Statistični podatki pomagajo podatkovnemu znanstveniku, da dobi boljše predstave o pričakovanjih kupcev. Z uporabo statistične metode Podatkovni znanstveniki lahko pridobijo znanje o zanimanju potrošnikov, vedenju, angažiranosti, zadrževanju itd. Pomaga vam tudi pri izdelavi zmogljivih podatkovnih modelov za potrditev nekaterih sklepov in napovedi.

34. Navedite različne vrste okvirov za poglobljeno učenje

  • Pytorch
  • Microsoftov kognitivni priročnik
  • TensorFlow
  • Caffe
  • Veriga
  • Keras

35. Pojasnite samodejni kodirnik

Avtokoderji so učna omrežja. Pomaga vam pretvoriti vhode v izhode z manj številom napak. To pomeni, da boste dobili izhod čim bližje vhodu.

36. Določite stroj Boltzmann

Stroji Boltzmann so preprost algoritem učenja. Pomaga vam odkriti tiste lastnosti, ki predstavljajo zapletene pravilnosti v podatkih o vadbi. Ta algoritem vam omogoča optimizacijo teže in količine za dani problem.

37. Pojasnite, zakaj je čiščenje podatkov bistvenega pomena in katero metodo uporabljate za vzdrževanje čistih podatkov

Umazani podatki pogosto vodijo do napačne notranjosti, kar lahko škoduje potencialnim organizacijam. Na primer, če želite izvesti ciljno marketinško kampanjo. Vendar pa naši podatki napačno povedo, da bo določen izdelek povpraševan po vaši ciljni skupini; kampanja bo propadla.

38. Kaj je poševna distribucija in enakomerna distribucija?

Poševna porazdelitev se zgodi, če so podatki porazdeljeni na kateri koli strani ploskve, medtem ko je enakomerna porazdelitev ugotovljena, ko so podatki razpršeni, v obsegu enaki.

39. Kdaj v statičnem modelu pride do pomanjkanja opreme?

Premajhna opremljenost se pojavi, kadar statistični model ali algoritem strojnega učenja ne more zajeti osnovnega trenda podatkov.

40. Kaj je učenje z okrepitvijo?

Okrepitveno učenje je učni mehanizem za preslikavo situacij v dejanja. Končni rezultat bi vam moral pomagati povečati binarni signal nagrade. Pri tej metodi se učencu ne pove, katero dejanje naj izvede, temveč mora odkriti, katero dejanje ponuja največjo nagrado. Kot ta metoda temelji na mehanizmu nagrajevanja / kazni.

41. Poimenujte pogosto uporabljene algoritme.

Štirje najpogosteje uporabljeni algoritmi za Data Science so:

  • Linearna regresija
  • Logistična regresija
  • Naključni gozd
  • KNN

42. Kaj je natančnost?

Natančnost je najpogosteje uporabljena metrika napak n mehanizem razvrščanja. Njeno območje je od 0 do 1, kjer 1 predstavlja 100%

43. Kaj je enovarijantna analiza?

Analiza, ki se naenkrat uporabi za noben atribut, je znana kot eno spremenljivka. Boxplot se pogosto uporablja, univariatni model.

44. Kako premagujete izzive svojih ugotovitev?

Za premagovanje mojih izzivov je treba spodbuditi razpravo, pokazati vodstvo in spoštovati različne možnosti.

45. Pojasnite tehniko vzorčenja grozdov v znanosti o podatkih

Metoda grozdnega vzorčenja se uporablja, kadar je težko preučiti razširjenost ciljne populacije in preprostega naključnega vzorčenja ni mogoče uporabiti.

46. ​​Navedite razliko med validacijskim in testnim nizom

Komplet za validacijo se večinoma šteje za del vadbenega kompleta, saj se uporablja za izbiro parametrov, s čimer se izognete prekomerni opremi zgrajenega modela.

Medtem ko se testni niz uporablja za testiranje ali ocenjevanje učinkovitosti usposobljenega modela strojnega učenja.

47. Pojasnite izraz Binomna formula verjetnosti?

"Binomna porazdelitev vsebuje verjetnosti vseh možnih uspehov na N poskusih za neodvisne dogodke, ki imajo verjetnost, da se bodo pojavili π."

48. Kaj je odpoklic?

Odpoklic je razmerje med dejansko pozitivno stopnjo in dejansko pozitivno stopnjo. Sega od 0 do 1.

49. Pogovorite se o običajni distribuciji

Normalna porazdelitev kot enakomerno porazdeljena srednja vrednost, mediana in način so enaki.

50. Kako lahko med delom na naboru podatkov izberete pomembne spremenljivke? Pojasnite

Uporabite lahko naslednje načine izbire spremenljivk:

  • Odstranite korelirane spremenljivke, preden izberete pomembne spremenljivke
  • Uporabite linearno regresijo in izberite spremenljivke, ki so odvisne od vrednosti p.
  • Uporabite izbiro nazaj, naprej in postopoma
  • Uporabite Xgboost, Random Forest in narišite grafikon spremenljive pomembnosti.
  • Izmerite pridobitev informacij za dani nabor funkcij in ustrezno izberite top n funkcij.

51. Ali je mogoče zajeti korelacijo med zvezno in kategorično spremenljivko?

Da, z analizo kovariančne tehnike lahko uporabimo povezavo med zveznimi in kategoričnimi spremenljivkami.

52. Če bi kategorično spremenljivko obravnavali kot kontinuirano spremenljivko, bi dobili boljši napovedni model?

Da, kategorično vrednost je treba šteti za neprekinjeno spremenljivko le, če je spremenljivka redne narave. Gre torej za boljši napovedni model.