Strojno učenje brez nadzora: kaj je, algoritmi, primer

Kazalo:

Anonim

Nenadzorovano učenje

Nenadzorovano učenje je tehnika strojnega učenja, pri kateri uporabnikom ni treba nadzirati modela. Namesto tega omogoča, da model deluje sam, da odkrije vzorce in informacije, ki prej niso bile odkrite. V glavnem se ukvarja z neoznačenimi podatki.

Algoritmi učenja brez nadzora

Algoritmi nenadzorovanega učenja omogočajo uporabnikom, da izvajajo bolj zapletene naloge obdelave v primerjavi z nadzorovanim učenjem. Čeprav je nenadzorovano učenje lahko bolj nepredvidljivo v primerjavi z drugimi naravnimi učnimi metodami. Nenadzorovani učni algoritmi vključujejo združevanje v skupine, odkrivanje anomalij, nevronske mreže itd.

V tej vadnici boste izvedeli:

  • Primer nenadzorovanega strojnega učenja
  • Zakaj nenadzorovano učenje?
  • Vrste nenadzorovanega učenja
  • Grozdanje
  • Vrste grozdov
  • Združenje
  • Nadzorovano in nenadzorovano strojno učenje
  • Aplikacije nenadzorovanega strojnega učenja
  • Slabosti nenadzorovanega učenja

Primer nenadzorovanega strojnega učenja

Vzemimo primer otroka in njenega družinskega psa.

Ta psa pozna in prepozna. Nekaj ​​tednov kasneje družinski prijatelj pripelje psa in se poskuša igrati z otrokom.

Baby tega psa ni videl že prej. Toda prepozna številne lastnosti (2 ušesi, oči, hoja na 4 nogah) so kot njen hišni pes. Novo žival prepozna kot psa. To je učenje brez nadzora, kjer vas ne učijo, vendar se učite iz podatkov (v tem primeru podatkov o psu.) Če bi bilo to nadzorovano učenje, bi družinski prijatelj otroku rekel, da gre za psa.

Zakaj nenadzorovano učenje?

Tu so glavni razlogi za uporabo nenadzorovanega učenja:

  • Nenadzorovano strojno učenje v podatkih najde vse vrste neznanih vzorcev.
  • Nenadzorovane metode vam pomagajo najti funkcije, ki so lahko koristne za kategorizacijo.
  • Poteka v realnem času, zato je treba vse vhodne podatke analizirati in označiti v prisotnosti učencev.
  • Iz računalnika je lažje dobiti neoznačene podatke kot etiketirane podatke, ki potrebujejo ročno posredovanje.

Vrste nenadzorovanega učenja

Nenadzorovani učni problemi so bili nadalje razvrščeni v težave z združevanjem in združevanjem.

Grozdanje

Grozdenje je pomemben koncept, ko gre za nenadzorovano učenje. Ukvarja se predvsem z iskanjem strukture ali vzorca v zbirki nekategoriziranih podatkov. Algoritmi grozdenja bodo obdelali vaše podatke in našli naravne grozde (skupine), če ti obstajajo v podatkih. Prav tako lahko spremenite, koliko skupin naj vaši algoritmi prepoznajo. Omogoča vam prilagoditev podrobnosti teh skupin.

Obstajajo različne vrste združevanja v gruče:

Ekskluzivno (particioniranje)

Pri tej metodi združevanja so podatki razvrščeni tako, da lahko en podatek pripada samo eni gruči.

Primer: K-pomeni

Aglomerativno

V tej tehniki grozdenja so vsi podatki grozdi. Ponavljajoče se zveze med dvema najbližjima grozdoma zmanjšajo število grozdov.

Primer: Hierarhično združevanje v skupine

Prekrivanje

V tej tehniki se mehki nabori uporabljajo za združevanje podatkov v gruče. Vsaka točka lahko pripada dvema ali več skupinam z različnimi stopnjami članstva.

Tu bodo podatki povezani z ustrezno vrednostjo članstva. Primer: Mehka C-sredstva

Verjetnostna

Ta tehnika uporablja porazdelitev verjetnosti za ustvarjanje grozdov

Primer: Po ključnih besedah

  • "moški čevelj."
  • "ženski čevelj."
  • "ženske rokavice."
  • "moška rokavica."

jih je mogoče razvrstiti v dve kategoriji "čevelj" in "rokavice" ali "moški" in "ženske".

Vrste grozdov

  • Hierarhično združevanje
  • K-pomeni združevanje v skupine
  • K-NN (k najbližjih sosedov)
  • Analiza glavne komponente
  • Razgradnja singularne vrednosti
  • Neodvisna analiza komponent

Hierarhično združevanje v gruče:

Hierarhično združevanje v skupine je algoritem, ki gradi hierarhijo skupin. Začne se z vsemi podatki, ki so dodeljeni njihovi grozdi. Tu bosta dve isti gruči v isti gruči. Ta algoritem se konča, ko ostane le še ena grozd.

K-pomeni grozd

K pomeni, da gre za iterativni algoritem združevanja, ki vam pomaga najti najvišjo vrednost za vsako ponovitev. Sprva je izbrano želeno število grozdov. Pri tej metodi združevanja morate podatkovne točke razvrstiti v k skupin. Večji k pomeni manjše skupine z večjo zrnatostjo na enak način. Nižji k pomeni večje skupine z manj razdrobljenostjo.

Rezultat algoritma je skupina "oznak". Podatkovno točko dodeli eni od k skupin. V združevanju k-pomeni je vsaka skupina definirana z ustvarjanjem centroida za vsako skupino. Centroidi so kot srce grozda, ki zajame točke, ki so jim najbližje, in jih doda v grozd.

Grozd K-sredina nadalje opredeljuje dve podskupini:

  • Aglomerativno združevanje
  • Dendrogram

Aglomerativno združevanje v gruče:

Ta vrsta združevanja K-pomeni se začne s fiksnim številom gruč. Vse podatke dodeli v natančno število grozdov. Ta metoda združevanja v skupine ne zahteva števila grozdov K kot vhodne podatke. Proces aglomeracije se začne tako, da se vsi podatki oblikujejo v eno skupino.

Ta metoda uporablja nekaj meritev razdalje in s postopkom združevanja zmanjša število gruč (po eno v vsaki ponovitvi). Nazadnje imamo eno veliko skupino, ki vsebuje vse predmete.

Dendrogram:

V metodi združevanja Dendrogram bo vsaka raven predstavljala možno skupino. Višina dendrograma prikazuje stopnjo podobnosti med dvema skupinama skupin. Bližje dnu procesa so bolj podobni grozdi, kar je ugotovitev skupine iz dendrograma, ki ni naravna in večinoma subjektivna.

K- Najbližji sosedje

K- najbližji sosed je najpreprostejši izmed vseh klasifikatorjev strojnega učenja. Od drugih tehnik strojnega učenja se razlikuje po tem, da ne izdela modela. To je preprost algoritem, ki shrani vse razpoložljive primere in razvrsti nove primerke na podlagi merila podobnosti.

Zelo dobro deluje, če obstaja razdalja med primeri. Hitrost učenja je počasna, če je vadbeni niz velik, izračun razdalje pa ni noben.

Analiza glavnih komponent:

V primeru, da želite prostor višje dimenzije. Za ta prostor morate izbrati osnovo in samo 200 najpomembnejših ocen te osnove. Ta osnova je znana kot glavna komponenta. Podnabor, ki ga izberete, predstavlja nov prostor, ki je majhen v primerjavi s prvotnim prostorom. Ohranja čim večjo zapletenost podatkov.

Združenje

Pravila povezovanja omogočajo vzpostavljanje asociacij med podatkovnimi objekti znotraj velikih baz podatkov. Ta nenadzorovana tehnika govori o odkrivanju zanimivih razmerij med spremenljivkami v velikih zbirkah podatkov. Na primer, ljudje, ki kupijo nov dom, najverjetneje kupijo novo pohištvo.

Drugi primeri:

  • Podskupina bolnikov z rakom, združenih po meritvah genske ekspresije
  • Skupine kupcev na podlagi njihove zgodovine brskanja in nakupa
  • Filmska skupina glede na oceno gledalcev

Nadzorovano in nenadzorovano strojno učenje

Parametri Nadzorovana tehnika strojnega učenja Nenadzorovana tehnika strojnega učenja
Vhodni podatki Algoritmi se učijo z uporabo označenih podatkov. Algoritmi se uporabljajo za podatke, ki niso označeni
Računalniška kompleksnost Nadzorovano učenje je preprostejša metoda. Nenadzorovano učenje je računsko zapleteno
Natančnost Zelo natančna in zaupanja vredna metoda. Manj natančna in zaupanja vredna metoda.

Aplikacije nenadzorovanega strojnega učenja

Nekatere uporabe tehnik strojnega učenja brez nadzora so:

  • Grozdanje nabora podatkov samodejno razdeli v skupine na podlagi njihovih podobnosti
  • Zaznavanje nepravilnosti lahko v vašem naboru podatkov odkrije nenavadne podatkovne točke. Uporaben je za iskanje goljufivih transakcij
  • Združeno rudarstvo prepozna nabore elementov, ki se pogosto pojavljajo skupaj v vašem naboru podatkov
  • Za predhodno obdelavo podatkov se pogosto uporabljajo modeli latentnih spremenljivk. Tako kot zmanjšanje števila funkcij v naboru podatkov ali razgradnja nabora podatkov na več komponent

Slabosti nenadzorovanega učenja

  • Ne morete dobiti natančnih informacij glede razvrščanja podatkov, izhodni podatki kot podatki, ki se uporabljajo pri nenadzorovanem učenju, so označeni in neznani
  • Manj natančnosti rezultatov je, ker vhodni podatki niso znani in jih ljudje vnaprej ne označijo. To pomeni, da stroj to mora storiti sam.
  • Spektralni razredi ne ustrezajo vedno informativnim razredom.
  • Uporabnik mora porabiti čas za razlago in označevanje razredov, ki sledijo tej klasifikaciji.
  • Spektralne lastnosti razredov se lahko sčasoma tudi spremenijo, tako da med premikanjem z ene slike na drugo ne morete imeti enakih informacij o razredu.

Povzetek

  • Nenadzorovano učenje je tehnika strojnega učenja, pri kateri vam ni treba nadzirati modela.
  • Strojno učenje brez nadzora vam pomaga najti vse vrste neznanih vzorcev v podatkih.
  • Grozdenje in združevanje sta dve vrsti nenadzorovanega učenja.
  • Štiri vrste metod združevanja v skupine so 1) ekskluzivne 2) aglomerativne 3) prekrivajoče se 4) verjetnostne.
  • Pomembne vrste združevanja v skupine so: 1) Hierarhično združevanje v skupine 2) K-pomeni združevanje v skupine 3) K-NN 4) Analiza glavnih komponent 5) Razgradnja singularne vrednosti 6) Neodvisna analiza komponent.
  • Pravila povezovanja omogočajo vzpostavljanje asociacij med podatkovnimi objekti znotraj velikih baz podatkov.
  • Pri nadzorovanem učenju se algoritmi usposabljajo z označenimi podatki, medtem ko se pri nenadzorovanem učenju algoritmi uporabljajo proti podatkom, ki niso označeni.
  • Zaznavanje nepravilnosti lahko v vašem naboru podatkov odkrije pomembne podatkovne točke, kar je koristno za iskanje goljufivih transakcij.
  • Največja pomanjkljivost nenadzorovanega učenja je, da ne morete dobiti natančnih informacij glede razvrščanja podatkov.