Kaj je nadzorovano strojno učenje?
Pri nadzorovanem učenju vadite stroj z uporabo podatkov, ki so dobro "označeni ". To pomeni, da so nekateri podatki že označeni s pravilnim odgovorom. Primerjamo jo z učenjem, ki poteka v prisotnosti nadzornika ali učitelja.
Nadzorovani učni algoritem se uči iz označenih podatkov o vadbi in vam pomaga napovedati rezultate za nepredvidene podatke.
Uspešna gradnja, spreminjanje velikosti in uvajanje natančnih nadzorovanih modelov strojnega učenja zahteva čas in tehnično znanje skupine visoko usposobljenih znanstvenikov za obdelavo podatkov. Poleg tega mora podatkovni znanstvenik znova zgraditi modele, da bo zagotovil, da dani vpogledi ostanejo resnični, dokler se podatki ne spremenijo.
V tej vadnici boste izvedeli:
- Kaj je nadzorovano strojno učenje?
- Kako deluje nadzorovano učenje
- Vrste nadzorovanih algoritmov strojnega učenja
- Nadzorovane in nenadzorovane tehnike strojnega učenja
- Izzivi v nadzorovanem strojnem učenju
- Prednosti nadzorovanega učenja:
- Slabosti nadzorovanega učenja
- Najboljše prakse za nadzorovano učenje
Kako deluje nadzorovano učenje
Na primer, želite izuriti stroj, ki vam bo pomagal napovedati, kako dolgo bo trajalo, da se s svojega delovnega mesta odpeljete domov. Tu začnete z ustvarjanjem nabora označenih podatkov. Ti podatki vključujejo
- Vremenske razmere
- Ura dneva
- Počitnice
Vse te podrobnosti so vaši vnosi. Rezultat je čas, potreben za vožnjo domov tistega dne.
Instinktivno veste, da če bo zunaj deževalo, bo trajalo dlje, da se odpeljete domov. Toda stroj potrebuje podatke in statistiko.
Poglejmo zdaj, kako lahko v tem primeru razvijete nadzorovani učni model, ki uporabniku pomaga določiti čas vožnje. Prva stvar, ki jo potrebujete za ustvarjanje, je komplet za trening. Ta komplet vadb bo vseboval skupni čas vožnje in ustrezne dejavnike, kot so vreme, čas itd. Na podlagi tega sklopa vadbe bo naprava morda videla, da obstaja neposredna povezava med količino dežja in časom, ki ga boste potrebovali za pot domov.
Torej ugotavlja, da bolj ko dežuje, dlje se boste vozili do svojega doma. Morda bo opazila tudi povezavo med časom, ko zapustiš službo, in časom, ko boš na poti.
Bližje kot ste 18. uri, dlje traja, da pridete domov. Vaša naprava lahko najde nekatere povezave z vašimi označenimi podatki.
To je začetek vašega podatkovnega modela. Začne vplivati na to, kako dež vpliva na način vožnje. Prav tako se zazna, da več ljudi potuje v določenem času dneva.
Vrste nadzorovanih algoritmov strojnega učenja
Regresija:
Regresijska tehnika predvideva eno izhodno vrednost z uporabo podatkov o treningu.
Primer : Z regresijo lahko na podlagi podatkov o usposabljanju predvidevate ceno hiše. Vhodne spremenljivke bodo kraj, velikost hiše itd.
Prednosti : Izhodi imajo vedno verjetnostno razlago in algoritem je mogoče regulirati, da se prepreči prekomerno prilagajanje.
Slabosti : Logistična regresija se lahko izkaže slabo, če obstajajo večkratne ali nelinearne meje odločanja. Ta metoda ni prilagodljiva, zato ne zajema bolj zapletenih odnosov.
Logistična regresija:
Logistična regresijska metoda, uporabljena za oceno diskretnih vrednosti na podlagi danega nabora neodvisnih spremenljivk. Pomaga vam napovedati verjetnost dogodka z namestitvijo podatkov v funkcijo logit. Zato je znana tudi kot logistična regresija. Ko napoveduje verjetnost, je njegova izhodna vrednost med 0 in 1.
Tu je nekaj vrst regresijskih algoritmov
Razvrstitev:
Klasifikacija pomeni združevanje rezultatov znotraj razreda. Če algoritem poskuša vnos označiti v dva različna razreda, se to imenuje binarna klasifikacija. Izbira med več kot dvema razredoma se imenuje večrazredna klasifikacija.
Primer : Določitev, ali bo nekdo neplačevalec posojila ali ne.
Prednosti : Klasifikacijsko drevo se v praksi zelo dobro obnese
Slabosti : Neomejena posamezna drevesa so nagnjena k prekomerni opremi.
Tu je nekaj vrst klasifikacijskih algoritmov
Naivni Bayesovi klasifikatorji
Naiven Bayesov model (NBN) je enostavno izdelati in zelo uporaben za velike nabore podatkov. Ta metoda je sestavljena iz neposrednih acikličnih grafov z enim od staršev in več otroki. Predpostavlja neodvisnost med podrejenimi vozlišči, ločenimi od staršev.
Drevesa odločitve
Drevesa odločitev razvrstijo primerek tako, da jih razvrstijo glede na vrednost lastnosti. Pri tej metodi je vsak način značilnost primerka. Treba ga je razvrstiti, vsaka veja pa predstavlja vrednost, ki jo vozlišče lahko sprejme. To je pogosto uporabljena tehnika za razvrščanje. Pri tej metodi je klasifikacija drevo, ki je znano kot drevo odločanja.
Pomaga vam oceniti dejanske vrednosti (stroški nakupa avtomobila, število klicev, skupna mesečna prodaja itd.).
Podporni vektorski stroj
Podporni vektorski stroj (SVM) je vrsta učnega algoritma, razvitega leta 1990. Ta metoda temelji na rezultatih statistične teorije učenja, ki jo je predstavil Vap Nik.
Stroji SVM so tudi tesno povezani s funkcijami jedra, kar je osrednji koncept za večino učnih nalog. Okvir jedra in SVM se uporabljata na različnih področjih. Vključuje iskanje večpredstavnostnih informacij, bioinformatiko in prepoznavanje vzorcev.
Nadzorovane in nenadzorovane tehnike strojnega učenja
Temelji na | Nadzorovana tehnika strojnega učenja | Nenadzorovana tehnika strojnega učenja |
Vhodni podatki | Algoritmi se učijo z uporabo označenih podatkov. | Algoritmi se uporabljajo za podatke, ki niso označeni |
Računalniška kompleksnost | Nadzorovano učenje je preprostejša metoda. | Nenadzorovano učenje je računsko zapleteno |
Natančnost | Zelo natančna in zaupanja vredna metoda. | Manj natančna in zaupanja vredna metoda. |
Izzivi v nadzorovanem strojnem učenju
Tu so izzivi, s katerimi se sooča nadzorovano strojno učenje:
- Sedanji podatki o vadbi zaradi nepomembne vhodne funkcije lahko dajejo netočne rezultate
- Priprava in predhodna obdelava podatkov je vedno izziv.
- Natančnost trpi, kadar je nemogoče, malo verjetno in so kot podatki o vadbi vnesene nepopolne vrednosti
- Če zadevni strokovnjak ni na voljo, je drugi pristop "surova sila". To pomeni, da morate razmišljati o pravih lastnostih (vhodnih spremenljivkah), na katerih boste trenirali stroj. Lahko je netočen.
Prednosti nadzorovanega učenja:
- Nadzorovano učenje vam omogoča zbiranje podatkov ali ustvarjanje podatkov iz prejšnjih izkušenj
- Pomaga vam optimizirati merila uspešnosti z uporabo izkušenj
- Nadzorovano strojno učenje vam pomaga pri reševanju različnih vrst resničnih računskih problemov.
Slabosti nadzorovanega učenja
- Meja odločitve je lahko pretrenirana, če vaš komplet vadbe, ki nima primerov, ki jih želite imeti v razredu
- Med usposabljanjem klasifikatorja morate iz vsakega razreda izbrati veliko dobrih primerov.
- Razvrstitev velikih podatkov je lahko pravi izziv.
- Usposabljanje za nadzorovano učenje potrebuje veliko računalniškega časa.
Najboljše prakse za nadzorovano učenje
- Preden začnete kar koli drugega, se morate odločiti, katere podatke želite uporabiti kot vadbeni niz
- Odločiti se morate o strukturi naučene funkcije in algoritmu učenja.
- Zberite ustrezne izide bodisi človeških strokovnjakov bodisi meritev
Povzetek
- Pri nadzorovanem učenju vadite stroj z uporabo podatkov, ki so dobro "označeni".
- Želite izuriti stroj, ki vam pomaga napovedati, kako dolgo bo trajalo, da se odpeljete domov s svojega delovnega mesta, je primer nadzorovanega učenja
- Regresija in klasifikacija sta dve vrsti nadzorovanih tehnik strojnega učenja.
- Nadzorovano učenje je preprostejša metoda, medtem ko je nenadzorovano učenje kompleksna metoda.
- Največji izziv pri nadzorovanem učenju je, da lahko nepomembni vnos, ki ga predstavljajo podatki o vadbi, dajo netočne rezultate.
- Glavna prednost nadzorovanega učenja je, da vam omogoča zbiranje podatkov ali ustvarjanje podatkov iz prejšnjih izkušenj.
- Pomanjkljivost tega modela je, da je meja odločitve lahko preobremenjena, če vaš komplet vadbe nima primerov, ki jih želite imeti v razredu.
- Kot najboljša praksa nadzora učenja se morate najprej odločiti, katere podatke želite uporabiti kot sklop usposabljanja.