R Enostavna, večkratna linearna in postopna regresija (s primerom)

Kazalo:

Anonim

V tej vadnici boste izvedeli

  • Preprosta linearna regresija
  • Večkratna linearna regresija
  • Neprekinjene spremenljivke
  • Faktorji regresije
  • Postopna regresija
  • Strojno učenje
  • Nadzorovano učenje
  • Učenje brez nadzora

Preprosta linearna regresija

Linearna regresija odgovori na preprosto vprašanje: ali lahko izmerite natančno razmerje med eno ciljno spremenljivko in naborom napovedovalcev?

Najenostavnejši verjetnostni model je model premice:

kje

  • y = odvisna spremenljivka
  • x = neodvisna spremenljivka
  • = komponenta naključne napake
  • = prestrezanje
  • = Koeficient x

Upoštevajte naslednjo ploskev:

Enačba je presečišče. Če je x enako 0, bo y enako preseku, 4,77. je naklon črte. Pove, v kakšnem razmerju se y spreminja, ko se x spreminja.

Za oceno optimalnih vrednosti uporabite metodo, imenovano Navadni najmanjši kvadrati (OLS) . Ta metoda poskuša najti parametre, ki zmanjšujejo vsoto napak na kvadrat, to je navpično razdaljo med predvidenimi vrednostmi y in dejanskimi vrednostmi y. Razlika je znana kot izraz napake .

Preden ocenite model, lahko z risanjem razpršene ploskve ugotovite, ali je linearno razmerje med y in x izvedljivo.

Graf raztrosa

Za razlago koncepta preproste linearne regresije bomo uporabili zelo preprost nabor podatkov. Uvozili bomo povprečne višine in uteži za ameriške ženske. Nabor podatkov vsebuje 15 opazovanj. Izmeriti želite, ali so višine pozitivno povezane z utežmi.

library(ggplot2)path <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/women.csv'df <-read.csv(path)ggplot(df,aes(x=height, y = weight))+geom_point()

Izhod:

Načrt razprševanja kaže na splošno težnjo, da se y poveča, ko se x poveča. V naslednjem koraku boste izmerili, koliko povečate za vsako dodatno.

Ocene najmanjših kvadratov

V preprosti OLS regresiji je izračun enostavno. Cilj ni prikazati izpeljave v tej vadnici. Napisali boste samo formulo.

Želite oceniti:

Cilj regresije OLS je zmanjšati naslednjo enačbo:

kje

je predvidena vrednost.

Rešitev za

Upoštevajte, da pomeni povprečno vrednost x

Rešitev za

V R lahko za oceno

beta <- cov(df$height, df$weight) / var (df$height)beta

Izhod:

##[1] 3.45
alpha <- mean(df$weight) - beta * mean(df$height)alpha

Izhod:

## [1] -87.51667

Koeficient beta pomeni, da se za vsako dodatno višino teža poveča za 3,45.

Ročna ocena preproste linearne enačbe ni idealna. R zagotavlja primerno funkcijo za oceno teh parametrov. Kmalu boste videli to funkcijo. Pred tem bomo predstavili, kako ročno izračunamo preprost linearni regresijski model. Na svojem potovanju podatkovnega znanstvenika boste komaj ali nikoli ocenili preprost linearni model. V večini primerov se regresijske naloge izvajajo na številnih ocenjevalcih.

Večkratna linearna regresija

Bolj praktične aplikacije regresijske analize uporabljajo modele, ki so bolj zapleteni od preprostega linearnega modela. Verjetnostni model, ki vključuje več kot eno neodvisno spremenljivko, se imenuje večkratni regresijski model . Splošna oblika tega modela je:

V matričnem zapisu lahko model prepišete:

Odvisna spremenljivka y je zdaj funkcija k neodvisnih spremenljivk. Vrednost koeficienta .

Na kratko predstavljamo domnevo o naključni napaki OLS:

  • Srednja vrednost enaka 0
  • Varianca enaka
  • Običajna porazdelitev
  • Naključne napake so neodvisne (v verjetnostnem smislu)

Rešiti morate za vektor regresijskih koeficientov, ki zmanjša vsoto kvadratov napak med napovedanimi in dejanskimi vrednostmi y.

Rešitev zaprte oblike je:

z:

  • označuje prenos matrike X
  • označuje obrnljivo matriko

Uporabljamo nabor podatkov mtcars. Z naborom podatkov ste že seznanjeni. Naš cilj je predvideti kilometrino na galono za vrsto funkcij.

Neprekinjene spremenljivke

Za zdaj boste uporabljali samo zvezne spremenljivke in razveljavili kategorične lastnosti. Spremenljivka am je binarna spremenljivka, ki ima vrednost 1, če je menjalnik ročni, in 0 za samodejne avtomobile; vs je tudi binarna spremenljivka.

library(dplyr)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))glimpse(df)

Izhod:

## Observations: 32## Variables: 6## $ mpg  21.0, 21.0, 22.8, 21.4, 18.7, 18.1, 14.3, 24.4, 22.8, 19… .## $ disp  160.0, 160.0, 108.0, 258.0, 360.0, 225.0, 360.0, 146.7, 1… ## $ hp  110, 110, 93, 110, 175, 105, 245, 62, 95, 123, 123, 180,… ## $ drat  3.90, 3.90, 3.85, 3.08, 3.15, 2.76, 3.21, 3.69, 3.92, 3.9… ## $ wt  2.620, 2.875, 2.320, 3.215, 3.440, 3.460, 3.570, 3.190, 3… ## $ qsec  16.46, 17.02, 18.61, 19.44, 17.02, 20.22, 15.84, 20.00, 2… 

Za izračun parametrov lahko uporabite funkcijo lm (). Osnovna sintaksa te funkcije je:

lm(formula, data, subset)Arguments:-formula: The equation you want to estimate-data: The dataset used-subset: Estimate the model on a subset of the dataset

Ne pozabite, da je enačba naslednje oblike

v R

  • Simbol = se nadomesti z ~
  • Vsak x se nadomesti z imenom spremenljivke
  • Če želite spustiti konstanto, dodajte -1 na koncu formule

Primer:

Težo posameznikov želite oceniti na podlagi njihove višine in dohodka. Enačba je

Enačba v R je zapisana tako:

y ~ X1 + X2 +… + Xn # S prestrezanjem

Torej, za naš primer:

  • Tehta ~ višina + prihodek

Vaš cilj je oceniti miljo na galono na podlagi nabora spremenljivk. Enačba za oceno je:

Ocenili boste svojo prvo linearno regresijo in rezultat shranili v ustrezen objekt.

model <- mpg~.disp + hp + drat + wtfit <- lm(model, df)fit

Razlaga kode

  • model <- mpg ~ . disp + hp + drat + wt: shranite model za oceno
  • lm (model, df): ocenite model s podatkovnim okvirom df
#### Call:## lm(formula = model, data = df)#### Coefficients:## (Intercept) disp hp drat wt## 16.53357 0.00872 -0.02060 2.01577 -4.38546## qsec## 0.64015

Izhod ne vsebuje dovolj informacij o kakovosti prileganja. S funkcijo sum () lahko dostopate do več podrobnosti, kot so pomembnost koeficientov, stopnja svobode in oblika ostankov.

summary(fit)

Izhod:

## return the p-value and coefficient#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5404 -1.6701 -0.4264 1.1320 5.4996#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 16.53357 10.96423 1.508 0.14362## disp 0.00872 0.01119 0.779 0.44281## hp -0.02060 0.01528 -1.348 0.18936## drat 2.01578 1.30946 1.539 0.13579## wt -4.38546 1.24343 -3.527 0.00158 **## qsec 0.64015 0.45934 1.394 0.17523## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.558 on 26 degrees of freedom## Multiple R-squared: 0.8489, Adjusted R-squared: 0.8199## F-statistic: 29.22 on 5 and 26 DF, p-value: 6.892e-10

Sklep iz zgornjega izhoda tabele

  • Zgornja tabela dokazuje, da obstaja močna negativna povezava med maso in kilometrino ter pozitivna povezava z dratom.
  • Samo spremenljivka wt ima statistični vpliv na mpg. Ne pozabite, da za preverjanje hipoteze v statistiki uporabljamo:
    • H0: Brez statističnega vpliva
    • H3: Napovednik ima pomemben vpliv na y
    • Če je vrednost p nižja od 0,05, to pomeni, da je spremenljivka statistično pomembna
  • Prilagojen R-kvadrat: varianca je razložena z modelom. V vašem modelu je model pojasnil 82 odstotkov variance y. R na kvadrat je vedno med 0 in 1. Čim višje, tem bolje

S testom ANOVA lahko ocenite učinek posamezne funkcije na variance s funkcijo anova ().

anova(fit)

Izhod:

## Analysis of Variance Table#### Response: mpg## Df Sum Sq Mean Sq F value Pr(>F)## disp 1 808.89 808.89 123.6185 2.23e-11 ***## hp 1 33.67 33.67 5.1449 0.031854 *## drat 1 30.15 30.15 4.6073 0.041340 *## wt 1 70.51 70.51 10.7754 0.002933 **## qsec 1 12.71 12.71 1.9422 0.175233## Residuals 26 170.13 6.54## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Bolj običajen način za oceno zmogljivosti modela je prikaz ostankov glede na različne mere.

S funkcijo plot () lahko prikažete štiri grafe:

- Preostale vrednosti v primerjavi z vgrajenimi vrednostmi

- Normalna QQ ploskev: teoretični kvartil proti standardiziranim ostankom

- Scale-Location: Prilagojene vrednosti proti kvadratnim koreninam standardiziranih ostankov

- Preostanki v primerjavi s finančnim vzvodom: vzvod v primerjavi s standardiziranimi ostanki

Kodo par (mfrow = c (2,2)) dodate pred ploskev (fit). Če ne dodate te vrstice kode, vas R pritisne na ukaz enter, da se prikaže naslednji graf.

par(mfrow=(2,2))

Razlaga kode

  • (mfrow = c (2,2)): vrnite okno s štirimi grafi drug ob drugem.
  • Prva 2 doda število vrstic
  • Druga 2 dodaja število stolpcev.
  • Če napišete (mfrow = c (3,2)): ustvarili boste okno s 3 stolpci in 2 stolpci
plot(fit)

Izhod:

Formula lm () vrne seznam, ki vsebuje veliko koristnih informacij. Do njih lahko dostopate s primernim objektom, ki ste ga ustvarili, čemur sledi znak $ in podatki, ki jih želite pridobiti.

- koeficienti: "fit $ koeficienti"

- ostanki: "prilegajo $ ostanki"

- vgrajena vrednost: "fit $ fit.values"

Faktorji regresije

V zadnji oceni modela regresujete mpg samo za neprekinjene spremenljivke. Modelu je enostavno dodati faktorjske spremenljivke. V svoj model dodate spremenljivko am. Pomembno je, da se prepričate, da je spremenljivka raven faktorja in ne kontinuirana.

df <- mtcars % > %mutate(cyl = factor(cyl),vs = factor(vs),am = factor(am),gear = factor(gear),carb = factor(carb))summary(lm(model, df))

Izhod:

#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5087 -1.3584 -0.0948 0.7745 4.6251#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 23.87913 20.06582 1.190 0.2525## cyl6 -2.64870 3.04089 -0.871 0.3975## cyl8 -0.33616 7.15954 -0.047 0.9632## disp 0.03555 0.03190 1.114 0.2827## hp -0.07051 0.03943 -1.788 0.0939 .## drat 1.18283 2.48348 0.476 0.6407## wt -4.52978 2.53875 -1.784 0.0946 .## qsec 0.36784 0.93540 0.393 0.6997## vs1 1.93085 2.87126 0.672 0.5115## am1 1.21212 3.21355 0.377 0.7113## gear4 1.11435 3.79952 0.293 0.7733## gear5 2.52840 3.73636 0.677 0.5089## carb2 -0.97935 2.31797 -0.423 0.6787## carb3 2.99964 4.29355 0.699 0.4955## carb4 1.09142 4.44962 0.245 0.8096## carb6 4.47757 6.38406 0.701 0.4938## carb8 7.25041 8.36057 0.867 0.3995## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.833 on 15 degrees of freedom## Multiple R-squared: 0.8931, Adjusted R-squared: 0.779## F-statistic: 7.83 on 16 and 15 DF, p-value: 0.000124

R uporablja prvo stopnjo faktorja kot osnovno skupino. Primerjati morate koeficiente druge skupine glede na osnovno skupino.

Postopna regresija

Zadnji del te vaje obravnava algoritem postopne regresije . Namen tega algoritma je dodati in odstraniti potencialne kandidate v modelih in obdržati tiste, ki pomembno vplivajo na odvisno spremenljivko. Ta algoritem je pomemben, kadar nabor podatkov vsebuje velik seznam napovedovalcev. Ne potrebujete ročnega dodajanja in odstranjevanja neodvisnih spremenljivk. Postopna regresija je zasnovana tako, da izbere najboljše kandidate, ki ustrezajo modelu.

Poglejmo v akciji, kako deluje. Nabor podatkov mtcars z zveznimi spremenljivkami uporabljate samo za pedagoško ilustracijo. Preden začnete z analizo, je dobro ugotoviti razlike med podatki s korelacijsko matrico. Knjižnica GGally je razširitev ggplot2.

Knjižnica vključuje različne funkcije za prikaz povzetkov statističnih podatkov, kot sta korelacija in porazdelitev vseh spremenljivk v matriki. Uporabili bomo funkcijo ggscatmat, za več informacij o knjižnici GGally pa se lahko obrnete na vinjeto.

Osnovna sintaksa ggscatmat () je:

ggscatmat(df, columns = 1:ncol(df), corMethod = "pearson")arguments:-df: A matrix of continuous variables-columns: Pick up the columns to use in the function. By default, all columns are used-corMethod: Define the function to compute the correlation between variable. By default, the algorithm uses the Pearson formula

Prikažete korelacijo za vse vaše spremenljivke in se odločite, katera bo najboljša kandidatka za prvi korak postopne regresije. Obstaja nekaj močnih povezav med vašimi spremenljivkami in odvisno spremenljivko, mpg.

library(GGally)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))ggscatmat(df, columns = 1: ncol(df))

Izhod:

Postopna regresija

Izbira spremenljivk je pomemben del modela. Postopna regresija bo samodejno izvedla postopek iskanja. Če želite oceniti, koliko možnih možnosti je nabora podatkov, izračunajte s k število napovedovalcev. Količina možnosti narašča s številom neodvisnih spremenljivk. Zato morate imeti samodejno iskanje.

Paket olsrr morate namestiti iz programa CRAN. Paket še ni na voljo v Anacondi. Zato ga namestite neposredno iz ukazne vrstice:

install.packages("olsrr")

Vse podmnožice možnosti lahko narišete z merili za prileganje (npr. R-kvadrat, prilagojeni R-kvadrat, Bayesov kriterij). Končni model bo model z najnižjimi merili AIC.

library(olsrr)model <- mpg~.fit <- lm(model, df)test <- ols_all_subset(fit)plot(test)

Razlaga kode

  • mpg ~ .: Izdelaj model za oceno
  • lm (model, df): zaženite model OLS
  • ols_all_subset (fit): Izdelajte grafe z ustreznimi statističnimi informacijami
  • ploskev (test): narišite grafe

Izhod:

Linearni regresijski modeli uporabljajo t-test za oceno statističnega vpliva neodvisne spremenljivke na odvisno spremenljivko. Raziskovalci so najvišji prag postavili na 10 odstotkov, nižje vrednosti pa kažejo na močnejšo statistično povezavo. Okoli tega testa je zasnovana strategija postopne regresije za dodajanje in odstranjevanje potencialnih kandidatov. Algoritem deluje na naslednji način:

  • 1. korak: Vsak napovedovalec uvrstite na y posebej. Regresirajte namreč x_1 na y, x_2 na y do x_n. Shranite p-vrednost in naj bo regresor z vrednostjo p nižjo od določenega praga (0,1 privzeto). Napovedniki s pomembnostjo, nižjo od praga, bodo dodani končnemu modelu. Če nobena spremenljivka nima vrednosti p nižje od vhodnega praga, se algoritem ustavi in ​​imate končni model samo s konstanto.
  • 2. korak: Uporabite napovednik z najnižjo vrednostjo p in dodajte ločeno eno spremenljivko. Regresirate konstanto, najboljši napovedovalec prvega in tretjega spremenljivka. Postopnemu modelu dodate nove napovedovalce z vrednostjo, nižjo od vstopnega praga. Če nobena spremenljivka nima vrednosti p nižje od 0,1, se algoritem ustavi in ​​končni model imate samo z enim napovedovalcem. Regresirate postopni model, da preverite pomembnost najboljših napovedovalcev za 1. korak. Če je višji od praga odstranjevanja, ga ohranite v postopnem modelu. V nasprotnem primeru ga izključite.
  • 3. korak: 2. korak ponovite na novem najboljšem postopnem modelu. Algoritem dodaja napovedovalce postopnemu modelu na podlagi vnesenih vrednosti in izključuje prediktor iz postopnega modela, če ne izpolnjuje praga za izključitev.
  • Algoritem se nadaljuje, dokler ni mogoče dodati ali izključiti nobene spremenljivke.

Algoritem lahko izvedete s funkcijo ols_stepwise () iz paketa olsrr.

ols_stepwise(fit, pent = 0.1, prem = 0.3, details = FALSE)

arguments:

-fit: Model to fit. Need to use `lm()`before to run `ols_stepwise()-pent: Threshold of the p-value used to enter a variable into the stepwise model. By default, 0.1-prem: Threshold of the p-value used to exclude a variable into the stepwise model. By default, 0.3-details: Print the details of each step

Pred tem vam pokažemo korake algoritma. Spodaj je tabela z odvisnimi in neodvisnimi spremenljivkami:

Odvisna spremenljivka

Neodvisne spremenljivke

mpg

disp

KM

drat

mas

qsec

Začni

Za začetek se algoritem začne z zagonom modela na vsaki neodvisni spremenljivki posebej. Tabela prikazuje vrednost p za vsak model.

## [[1]]## (Intercept) disp## 3.576586e-21 9.380327e-10#### [[2]]## (Intercept) hp## 6.642736e-18 1.787835e-07#### [[3]]## (Intercept) drat## 0.1796390847 0.0000177624#### [[4]]## (Intercept) wt## 8.241799e-19 1.293959e-10#### [[5]## (Intercept) qsec## 0.61385436 0.01708199

Za vstop v model algoritem ohrani spremenljivko z najnižjo vrednostjo p. Iz zgornjega izhoda je wt

Korak 1

V prvem koraku algoritem samostojno zažene mpg na wt in druge spremenljivke.

## [[1]]## (Intercept) wt disp## 4.910746e-16 7.430725e-03 6.361981e-02#### [[2]]## (Intercept) wt hp## 2.565459e-20 1.119647e-06 1.451229e-03#### [[3]]## (Intercept) wt drat## 2.737824e-04 1.589075e-06 3.308544e-01#### [[4]]## (Intercept) wt qsec## 7.650466e-04 2.518948e-11 1.499883e-03

Vsaka spremenljivka je potencialna kandidatka za vstop v končni model. Vendar algoritem hrani samo spremenljivko z nižjo vrednostjo p. Izkazalo se je, da ima hp rahlo nižjo p-vrednost kot qsec. Zato HP vstopi v končni model

2. korak

Algoritem ponovi prvi korak, tokrat pa z dvema neodvisnima spremenljivkama v končnem modelu.

## [[1]]## (Intercept) wt hp disp## 1.161936e-16 1.330991e-03 1.097103e-02 9.285070e-01#### [[2]]## (Intercept) wt hp drat## 5.133678e-05 3.642961e-04 1.178415e-03 1.987554e-01#### [[3]]## (Intercept) wt hp qsec## 2.784556e-03 3.217222e-06 2.441762e-01 2.546284e-01

Nobena od spremenljivk, ki so vstopile v končni model, nima dovolj nizke vrednosti p. Tu se algoritem ustavi; imamo končni model:

#### Call:## lm(formula = mpg ~ wt + hp, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.941 -1.600 -0.182 1.050 5.854#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 37.22727 1.59879 23.285 < 2e-16 ***## wt -3.87783 0.63273 -6.129 1.12e-06 ***## hp -0.03177 0.00903 -3.519 0.00145 **## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.593 on 29 degrees of freedom## Multiple R-squared: 0.8268, Adjusted R-squared: 0.8148## F-statistic: 69.21 on 2 and 29 DF, p-value: 9.109e-12 

Za primerjavo rezultatov lahko uporabite funkcijo ols_stepwise ().

stp_s <-ols_stepwise(fit, details=TRUE)

Izhod:

Algoritem po dveh korakih najde rešitev in vrne enak izhod, kot smo ga imeli prej.

Na koncu lahko rečete, da je model razložen z dvema spremenljivkama in prestrezanjem. Kilometer na galono je v negativni korelaciji z bruto konjsko močjo in težo

## You are selecting variables based on p value… ## 1 variable(s) added… .## Variable Selection Procedure## Dependent Variable: mpg#### Stepwise Selection: Step 1#### Variable wt Entered#### Model Summary## --------------------------------------------------------------## R 0.868 RMSE 3.046## R-Squared 0.753 Coef. Var 15.161## Adj. R-Squared 0.745 MSE 9.277## Pred R-Squared 0.709 MAE 2.341## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 847.725 1 847.725 91.375 0.0000## Residual 278.322 30 9.277## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.285 1.878 19.858 0.000 33.450 41.120## wt -5.344 0.559 -0.868 -9.559 0.000 -6.486 -4.203## ----------------------------------------------------------------------------------------## 1 variable(s) added… ## Stepwise Selection: Step 2#### Variable hp Entered#### Model Summary## --------------------------------------------------------------## R 0.909 RMSE 2.593## R-Squared 0.827 Coef. Var 12.909## Adj. R-Squared 0.815 MSE 6.726## Pred R-Squared 0.781 MAE 1.901## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 930.999 2 465.500 69.211 0.0000## Residual 195.048 29 6.726## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.227 1.599 23.285 0.000 33.957 40.497## wt -3.878 0.633 -0.630 -6.129 0.000 -5.172 -2.584## hp -0.032 0.009 -0.361 -3.519 0.001 -0.050 -0.013## ----------------------------------------------------------------------------------------## No more variables to be added or removed.

Strojno učenje

Strojno učenje postaja vse bolj razširjeno med podatkovnimi znanstveniki in je vpeto v stotine izdelkov, ki jih dnevno uporabljate. Ena prvih aplikacij ML je bil filter neželene pošte .

Sledijo druge aplikacije strojnega učenja -

  • Prepoznavanje neželenih sporočil v e-pošti
  • Segmentacija vedenja kupcev za ciljno oglaševanje
  • Zmanjšanje goljufivih transakcij s kreditnimi karticami
  • Optimizacija porabe energije v domači in poslovni zgradbi
  • Prepoznavanje obraza

Nadzorovano učenje

Pri nadzorovanem učenju podatki o vadbi, ki jih vnesete v algoritem, vključujejo oznako.

Klasifikacija je verjetno najbolj uporabljana nadzorovana učna tehnika. Eno prvih razvrščevalnih nalog, ki so se jih lotili, je bil filter neželene pošte. Cilj učenja je napovedati, ali je e-poštno sporočilo razvrščeno kot neželena ali šunka (dobra e-pošta). Naprava po koraku usposabljanja lahko zazna razred e-pošte.

Regresije se pogosto uporabljajo na področju strojnega učenja za napovedovanje stalne vrednosti. Regresijska naloga lahko napove vrednost odvisne spremenljivke na podlagi nabora neodvisnih spremenljivk (imenovanih tudi napovedovalci ali regresorji). Na primer, linearne regresije lahko napovejo ceno delnic, vremensko napoved, prodajo itd.

Tu je seznam nekaterih temeljnih nadzorovanih učnih algoritmov.

  • Linearna regresija
  • Logistična regresija
  • Najbližji sosedje
  • Podporni vektorski stroj (SVM)
  • Drevesa odločanja in naključni gozd
  • Nevronske mreže

Učenje brez nadzora

Pri nenadzorovanem učenju podatki o usposabljanju niso označeni. Sistem se poskuša učiti brez reference. Spodaj je seznam nenadzorovanih učnih algoritmov.

  • K-pomeni
  • Hierarhična analiza grozdov
  • Povečanje pričakovanj
  • Vizualizacija in zmanjšanje dimenzionalnosti
  • Analiza glavne komponente
  • Jedro PCA
  • Lokalno-linearno vgrajevanje

Povzetek

Običajno najmanj kvadratno regresijo lahko povzamemo v spodnji tabeli:

Knjižnica

Cilj

Funkcija

Argumenti

osnova

Izračunajte linearno regresijo

lm ()

formula, podatki

osnova

Povzetek modela

povzeti ()

fit

osnova

Ekstraktni koeficienti

lm () $ koeficient

osnova

Odstrani ostanke

lm () $ ostankov

osnova

Natančno vgrajena vrednost

lm () $ fit.vrednosti

olsrr

Zaženite postopno regresijo

ols_stepwise ()

fit, pent = 0,1, prem = 0,3, podrobnosti = FALSE

Opomba : Ne pozabite transformirati kategorične spremenljivke v faktor, preden se prilega modelu.