Kaj je programska oprema R?
R je programski jezik in brezplačna programska oprema, ki sta jo leta 1993. razvila Ross Ihaka in Robert Gentleman. R ima obsežen katalog statističnih in grafičnih metod. Vključuje algoritme strojnega učenja, linearno regresijo, časovne vrste, statistično sklepanje, da naštejemo le nekatere. Večina knjižnic R je napisanih v jeziku R, za težka računska opravila pa so prednostne kode C, C ++ in Fortran.
R-ja ne zaupajo samo akademiki, ampak številna velika podjetja uporabljajo tudi programski jezik R, vključno z Uber, Google, Airbnb, Facebook itd.
Analiza podatkov z R poteka v vrsti korakov; programiranje, preoblikovanje, odkrivanje, modeliranje in sporočanje rezultatov
- Program : R je jasno in dostopno programsko orodje
- Transform : R je sestavljena iz zbirke knjižnic, zasnovanih posebej za podatkovno znanost
- Odkrijte : preučite podatke, izboljšajte svojo hipotezo in jih analizirajte
- Model : R ponuja široko paleto orodij za zajem pravega modela za vaše podatke
- Komunicirajte : integrirajte kode, grafe in izhode v poročilo z R Markdown ali zgradite sijoče aplikacije za skupno rabo s svetom
V tej uvodni vadnici se boste naučili R.
- Za kaj se uporablja R?
- R po industriji
- R paket
- Komunicirajte z R
- Zakaj uporabljati R?
- Bi morali izbrati R?
- Je R težko?
Za kaj se uporablja R?
- Statistično sklepanje
- Analiza podatkov
- Algoritem strojnega učenja
R po industriji
Če razčlenimo uporabo R po industriji, vidimo, da so akademiki na prvem mestu. R je jezik za statistiko. R je prva izbira v zdravstveni industriji, sledita ji vlada in svetovanje.
R paket
Primarna uporaba R je in bo vedno statistika, vizualizacija in strojno učenje. Spodnja slika prikazuje, kateri paket R je dobil največ vprašanj pri Stack Overflow. V prvih 10 jih je večina povezanih s potekom dela znanstvenika za podatke: priprava podatkov in sporočanje rezultatov.
Vse knjižnice R, skoraj 12k, so shranjene v CRAN-u. CRAN je brezplačna in odprta koda. Številne knjižnice lahko prenesete in uporabite za izvajanje strojnega učenja ali analize časovnih vrst.
Komunicirajte z R
R ima več načinov, kako predstaviti in deliti delo, bodisi z dokumentom o zmanjšanju vrednosti bodisi z bleščečo aplikacijo. Vse lahko gosti Rpub, GitHub ali spletno mesto podjetja.
Spodaj je primer predstavitve, ki gostuje na Rpub
Rstudio za zapis dokumenta sprejme prihodek. Dokumente lahko izvozite v različnih oblikah:
- Dokument:
- HTML
- PDF / Latex
- Beseda
- Predstavitev
- HTML
- PDF žarek
Rstudio ima odlično orodje za enostavno ustvarjanje aplikacije. Spodaj je primer aplikacije s podatki Svetovne banke.
Zakaj uporabljati R?
Podatkovna znanost oblikuje način poslovanja podjetij. Če se izognete umetni inteligenci in stroju, bo podjetje nedvomno povzročilo propad. Veliko vprašanje je, katero orodje / jezik naj uporabite?
Na trgu je na voljo veliko orodij za izvedbo analize podatkov. Učenje novega jezika zahteva nekaj časa. Spodnja slika prikazuje krivuljo učenja v primerjavi s poslovnimi sposobnostmi, ki jih jezik ponuja. Negativno razmerje pomeni, da ni brezplačnega kosila. Če želite dati najboljši vpogled iz podatkov, morate nekaj časa nameniti učenju ustreznega orodja, to je R.
V zgornjem levem kotu grafa vidite Excel in PowerBI. Ti dve orodji sta enostavni za učenje, vendar ne ponujata izjemnih poslovnih sposobnosti, zlasti v smislu modeliranja. Na sredini lahko vidite Python in SAS. SAS je namensko orodje za izvajanje statistične analize za podjetja, vendar ni brezplačno. SAS je programska oprema za klik in zagon. Python pa je jezik z monotono učno krivuljo. Python je čudovito orodje za uvajanje strojnega učenja in umetne inteligence, vendar nima komunikacijskih funkcij. Z enako učno krivuljo je R dober kompromis med izvajanjem in analizo podatkov.
Ko gre za vizualizacijo podatkov (DataViz), ste verjetno že slišali za Tableau. Tableau je nedvomno odlično orodje za odkrivanje vzorcev z grafi in grafikoni. Poleg tega učenje Tableauja ni dolgotrajno. Velika težava pri vizualizaciji podatkov je, da morda na koncu nikoli ne najdete vzorca ali preprosto ustvarite veliko neuporabnih grafikonov. Tableau je dobro orodje za hitro vizualizacijo podatkov ali Business Intelligence. Kar zadeva statistiko in orodje za odločanje, je R bolj primeren.
Stack Overflow je velika skupnost za programske jezike. Če imate težavo s kodiranjem ali morate razumeti model, vam tukaj pomaga Stack Overflow. Z leti se je odstotek ogledov vprašanj za R močno povečal v primerjavi z drugimi jeziki. Ta trend je seveda v veliki meri povezan z naraščajočo dobo znanosti o podatkih, vendar odraža povpraševanje po jeziku R po znanosti o podatkih.
V znanosti o podatkih obstajata dve orodji, ki si tekmujeta. R in Python sta verjetno programski jezik, ki opredeljuje podatkovno znanost.
Bi morali izbrati R?
Podatkovni znanstvenik lahko uporablja dve odlični orodji: R in Python. Morda nimate časa, da se naučite obeh, še posebej, če se začnete učiti podatkovne znanosti. Učenje statističnega modeliranja in algoritmaje veliko bolj pomembno kot učenje programskega jezika. Programski jezik je orodje za izračun in sporočanje vašega odkritja. Najpomembnejša naloga v znanosti o podatkih je način obdelave podatkov: uvoz, čiščenje, priprava, inženiring funkcij, izbira lastnosti. To bi moral biti vaš glavni poudarek. Če se poskušate hkrati učiti R in Python brez trdnega ozadja statistike, je to navadno neumno. Podatkovni znanstvenik ni programer. Njihova naloga je razumeti podatke, manipulirati z njimi in izpostaviti najboljši pristop. Če razmišljate, kateri jezik bi se naučili, poglejmo, kateri jezik je za vas najprimernejši.
Glavno občinstvo za podatkovno znanost je poslovni strokovnjak. V poslu je en velik pomen komunikacija. Obstaja veliko načinov komuniciranja: poročilo, spletna aplikacija, nadzorna plošča. Potrebujete orodje, ki vse to počne skupaj.
Je R težko?
Pred leti je bil R jezik težko obvladljiv. Jezik je bil zmeden in ni bil tako strukturiran kot druga programska orodja. Da bi premagal to glavno težavo, je Hadley Wickham razvil zbirko paketov, imenovanih tidyverse. Pravilo igre se je spremenilo na najboljše. Manipulacija s podatki postane trivialna in intuitivna. Ustvarjanje grafa ni bilo več tako težko.
Najboljše algoritme za strojno učenje je mogoče implementirati z R. Paketi, kot sta Keras in TensorFlow, omogočajo izdelavo vrhunske tehnike strojnega učenja. R ima tudi paket za izvajanje Xgboost, enega najboljših algoritmov za tekmovanje Kaggle.
R lahko komunicira z drugim jezikom. V R. je mogoče poklicati Python, Java, C ++. R-u je na voljo tudi svet velikih podatkov. R lahko povežete z različnimi bazami podatkov, kot sta Spark ali Hadoop.
Končno se je R razvil in omogočil operacijo paralelizacije, da pospeši izračun. Pravzaprav so R-ju očitali, da hkrati uporablja le en CPU. Vzporedni paket vam omogoča izvajanje nalog v različnih jedrih stroja.
Povzetek
Na kratko je R odlično orodje za raziskovanje in raziskovanje podatkov. Izdelana analiza, kot je združevanje v skupine, korelacija in zmanjšanje podatkov, se opravi z R. To je najpomembnejši del, brez dobrega inženiringa in modela lastnosti uvajanje strojnega učenja ne bo dalo pomembnih rezultatov.