Kaj je faktor v R?
Faktor v R je spremenljivka, ki se uporablja za kategorizacijo in shranjevanje podatkov z omejenim številom različnih vrednosti. Podatke shrani kot vektor celoštevilskih vrednosti. Faktor v R je znan tudi kot kategorična spremenljivka, ki kot ravni shranjuje vrednosti podatkov niza in celo število. Faktor se večinoma uporablja pri statističnem modeliranju in raziskovalni analizi podatkov z R.
V naboru podatkov lahko ločimo dve vrsti spremenljivk: kategorično in zvezno .
- V opisni statistiki za kategorične spremenljivke v R je vrednost omejena in običajno temelji na določeni končni skupini. Na primer, kategorična spremenljivka v R je lahko države, leto, spol, poklic.
- Neprekinjena spremenljivka pa ima lahko vse vrednosti, od celih do decimalnih. Na primer, lahko imamo prihodek, ceno delnice itd ...
Kategorične spremenljivke
Kategorične spremenljivke v R so shranjene v faktor. Preverimo spodnjo kodo za pretvorbo spremenljivke znakov v spremenljivko faktorja v R. Znaki v algoritmu strojnega učenja niso podprti in edini način je pretvorba niza v celo število.
Sintaksa
factor(x = character(), levels, labels = levels, ordered = is.ordered(x))
Argumenti:
- x : vektor kategoričnih podatkov v R. Mora biti niz ali celo število, ne decimalno.
- Ravni : vektor možnih vrednosti x. Ta argument ni obvezen. Privzeta vrednost je enolični seznam elementov vektorja x.
- Oznake : dodajte oznako x kategoričnim podatkom v R. Na primer, 1 lahko vzame oznako `moški`, medtem ko 0, oznaka` ženska`.
- ukazano : Določite, ali naj bodo ravni razvrščene v kategoričnih podatkih v R.
Primer:
Ustvarimo podatkovni okvir faktorja.
# Create gender vectorgender_vector <- c("Male", "Female", "Female", "Male", "Male")class(gender_vector)# Convert gender_vector to a factorfactor_gender_vector <-factor(gender_vector)class(factor_gender_vector)
Izhod:
## [1] "character"## [1] "factor"
Pri izvajanju naloge strojnega učenja je pomembno, da v R spremenimo niz v faktor spremenljivko.
Kategorično spremenljivko v R lahko razdelimo na nominalno kategorično spremenljivko in redno kategorično spremenljivko .
Nazivna kategorična spremenljivka
Kategorična spremenljivka ima več vrednosti, vendar vrstni red ni pomemben. Na primer moški ali ženska. Kategorične spremenljivke v R nimajo urejanja.
# Create a color vectorcolor_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')# Convert the vector to factorfactor_color <- factor(color_vector)factor_color
Izhod:
## [1] blue red green white black yellow## Levels: black blue green red white yellow
Iz faktorja_barva ne moremo razbrati nobenega naročila.
Redna kategorična spremenljivka
Redne kategorične spremenljivke imajo naravni vrstni red. Naročilo lahko določimo od najnižjega do najvišjega z naročilom = TRUE in najvišjega do najnižjega z naročilom = FALSE.
Primer:
Povzetek lahko uporabimo za štetje vrednosti za vsako spremenljivko faktorja v R.
# Create Ordinal categorical vectorday_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')# Convert `day_vector` to a factor with ordered levelfactor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))# Print the new variablefactor_day
Izhod:
## [1] evening morning afternoon middaymidnight evening
Primer:
## Levels: morning < midday < afternoon < evening < midnight# Append the line to above code# Count the number of occurence of each levelsummary(factor_day)
Izhod:
## morning midday afternoon evening midnight## 1 1 1 2 1
R je stopnjo določil od "jutra" do "polnoči", kot je določeno v oklepaju ravni.
Neprekinjene spremenljivke
Neprekinjene spremenljivke razreda so privzeta vrednost v R. Shranjene so kot številke ali celo število. Vidimo ga iz spodnjega nabora podatkov. mtcars je vgrajen nabor podatkov. Zbira informacije o različnih tipih avtomobilov. Lahko ga uvozimo z uporabo mtcarjev in preverimo razred spremenljivke mpg, milja na galono. Vrne številčno vrednost, ki označuje neprekinjeno spremenljivko.
dataset <- mtcarsclass(dataset$mpg)
Izhod
## [1] "numeric"