Matrica zmede pri strojnem učenju z PRIMEROM

Kazalo:

Anonim

Kaj je matrica zmede?

Matrica zmede je tehnika merjenja učinkovitosti za klasifikacijo strojnega učenja. To je nekakšna tabela, ki vam pomaga spoznati učinkovitost klasifikacijskega modela na nizu testnih podatkov, za katere so znane resnične vrednosti. Izraz matrica zmede je sicer zelo preprost, vendar je z njim povezana terminologija lahko nekoliko zmedena. Tu je podana nekaj preprostih razlag za to tehniko.

V tej vadnici boste izvedeli,

  • Kaj je matrica zmede?
  • Štirje izidi matrice zmede
  • Primer matrice zmede:
  • Kako izračunati matriko zmede
  • Drugi pomembni izrazi z uporabo matrice zmede
  • Zakaj potrebujete matriko zmede?

Štirje izidi matrice zmede

Matrica zmede ponazarja natančnost klasifikatorja s primerjavo dejanskih in predvidenih razredov. Matrika binarne zmede je sestavljena iz kvadratov:

Tabela zmede
  • TP: resnično pozitivno: predvidene vrednosti so pravilno napovedane kot dejanske pozitivne
  • FP: Predvidene vrednosti so napačno napovedale dejansko pozitivno vrednost. Negativne vrednosti so napovedane kot pozitivne
  • FN: Lažno negativno: pozitivne vrednosti so napovedane kot negativne
  • TN: Resnično negativno: predvidene vrednosti so pravilno napovedane kot dejanske negativne vrednosti

Preizkus natančnosti lahko izračunate iz matrice zmede:

Primer matrice zmede:

Matrica zmede je uporabna metoda strojnega učenja, ki vam omogoča merjenje krivulje odpoklica, natančnosti, natančnosti in AUC-ROC. Spodaj je naveden primer poznavanja izrazov True Positive, True Negative, False Negative in True Negative.

Res pozitivno:

Predvidevali ste pozitivno in izkazalo se je, da je res. Na primer, predvideli ste, da bo Francija zmagala na svetovnem prvenstvu, in je zmagala.

Resnično negativno:

Ko ste napovedali negativno, in res je. Predvideli ste, da Anglija ne bo zmagala in je izgubila.

Lažno pozitiven:

Vaša napoved je pozitivna in napačna.

Predvidevali ste, da bo Anglija zmagala, a izgubila.

Lažno negativno:

Vaša napoved je negativna, rezultat pa je tudi napačen.

Predvidevali ste, da Francija ne bo zmagala, a je zmagala.

Ne pozabite, da napovedane vrednosti opisujemo kot resnične ali napačne ali pozitivne in negativne.

Kako izračunati matriko zmede

Tukaj je postopek za izračun zmedene matrike pri rudarjenju podatkov

  • Korak 1) Najprej morate preizkusiti nabor podatkov s pričakovanimi vrednostmi izida.
  • Korak 2) Predvidite vse vrstice v testnem naboru podatkov.
  • Korak 3) Izračunajte pričakovane napovedi in izide:
  1. Vsota pravilnih napovedi za vsak razred.
  2. Skupno število napačnih napovedi za vsak razred.

Po tem so te številke razvrščene po spodnjih metodah:

  • Vsaka vrstica matrike se poveže s predvidenim razredom.
  • Vsak stolpec matrice ustreza dejanskemu razredu.
  • V tabelo se vnese skupno število pravilnih in nepravilnih razvrstitev.
  • Vsota pravilnih napovedi za razred gre v predvideni stolpec in pričakovano vrstico za to vrednost razreda.
  • Vsota napačnih predvidevanj za razred gre v pričakovano vrstico za to vrednost razreda in predvideni stolpec za to določeno vrednost razreda.

Drugi pomembni izrazi z uporabo matrice zmede

  • Pozitivna napovedna vrednost (PVV): To je zelo blizu natančnosti. Pomembna razlika med dvema izrazoma je v tem, da PVV upošteva razširjenost. V razmerah, ko so razredi popolnoma uravnoteženi, je pozitivna napovedna vrednost enaka natančnosti.
  • Null Error Rate: Ta izraz se uporablja za določitev, kolikokrat bi bila vaša napoved napačna, če lahko predvidevate večinski razred. Za primerjavo svojega klasifikatorja lahko štejete za osnovno meritev.
  • Ocena F: Ocena F1 je tehtana povprečna ocena resničnega pozitivnega (odpoklic) in natančnosti.
  • Roc krivulja: Roc krivulja prikazuje resnične pozitivne stopnje v primerjavi z lažno pozitivnimi stopnjami na različnih mejah rezanja. Prikazuje tudi kompromis med občutljivostjo (odpoklic in specifičnost ali dejansko negativno stopnjo).
  • Natančnost: meritev natančnosti prikazuje natančnost pozitivnega razreda. Meri, kako verjetno je napoved pozitivnega razreda pravilna.

Najvišja ocena je 1, če klasifikator popolnoma razvrsti vse pozitivne vrednosti. Natančnost sama po sebi ni v veliko korist, ker ignorira negativni razred. Meritev je običajno seznanjena z metriko odpoklica. Odpoklic se imenuje tudi občutljivost ali resnična pozitivna stopnja.

  • Občutljivost : Občutljivost izračuna razmerje med pravilno zaznanimi pozitivnimi razredi. Ta metrika prikazuje, kako dober je model, da prepozna pozitiven razred.

Zakaj potrebujete matriko zmede?

Tu so prednosti / prednosti uporabe matrice zmede.

  • Prikazuje, kako je kateri koli klasifikacijski model zmeden, ko daje napovedi.
  • Matrica zmede vam ne daje samo vpogleda v napake, ki jih naredi vaš klasifikator, ampak tudi v vrste napak, ki jih povzročate.
  • Ta razčlenitev vam pomaga premagati omejitev uporabe samo natančnosti razvrščanja.
  • Vsak stolpec matrice zmede predstavlja primerke tega predvidenega razreda.
  • Vsaka vrstica matrice zmede predstavlja primerke dejanskega razreda.
  • Omogoča vpogled ne samo v napake, ki jih naredi klasifikator, temveč tudi v napake, ki jih povzroča.