Preden gremo na uvod v Big Data, morate najprej vedeti
Kaj so podatki?
Količine, znaki ali simboli, na katerih operacije izvaja računalnik, ki jih je mogoče shraniti in prenašati v obliki električnih signalov in snemati na magnetni, optični ali mehanski snemalni medij.
Zdaj pa se naučimo uvajanja velikih podatkov
Kaj so veliki podatki?
Big Data je zbirka podatkov, ki je ogromna, vendar s časom eksponentno narašča. Gre za podatke s tako veliko velikostjo in zapletenostjo, da jih nobeno tradicionalno orodje za upravljanje podatkov ne more shraniti ali učinkovito obdelati. Veliki podatki so tudi podatki, vendar z veliko velikostjo.
V tej vadnici boste izvedeli,
- Kaj so podatki?
- Kaj so veliki podatki?
- Primeri velikih podatkov
- Vrste velikih podatkov
- Značilnosti velikih podatkov
- Prednosti obdelave velikih podatkov
Primeri velikih podatkov
Sledi nekaj primerov velikih podatkov -
New York Stock Exchange ustvari približno en terabajt novih trgovinskih podatkov na dan.
Socialni mediji
Statistični podatki kažejo, da se 500 + terabajtov novih podatkov vsak dan vnese v baze podatkov spletnega mesta Facebook v družabnih omrežjih . Ti podatki so v glavnem ustvarjeni v smislu nalaganja fotografij in videov, izmenjave sporočil, dajanja komentarjev itd.
En motor Jet lahko ustvari 10 + terabajtov podatkov v 30 minutah leta. Z več tisoč leti na dan generacija podatkov doseže veliko Petabajtov.
Vrste velikih podatkov
Sledijo vrste velikih podatkov:
- Strukturirano
- Nestrukturirano
- Polstrukturiran
Strukturirano
Vsi podatki, ki jih je mogoče shraniti, dostopati do njih in jih obdelovati v obliki nespremenljive oblike, se imenujejo „strukturirani“ podatki. V določenem časovnem obdobju je talent na področju računalništva dosegel večji uspeh pri razvoju tehnik za delo s tovrstnimi podatki (kjer je oblika dobro znana vnaprej) in iz tega tudi izvablja vrednost. Danes pa predvidevamo težave, ko se velikost takih podatkov močno poveča, tipične velikosti pa so v besu več zettabajtov.
Ali veš? 10 21 bajtov, enakih 1 zettabajtu ali eni milijardi terabajtov, tvori zettabyte .
Če pogledamo te številke, lahko zlahka razumemo, zakaj je podano ime Big Data, in si predstavljamo izzive, povezane z njegovim shranjevanjem in obdelavo.
Ali veš? Podatki, shranjeni v sistemu upravljanja relacijske baze podatkov, so en primer "strukturiranih" podatkov.
Primeri strukturiranih podatkov
Tabela 'Zaposleni' v zbirki podatkov je primer strukturiranih podatkov
ID zaposlenega | Ime zaposlenega | Spol | Oddelek | Plača_In_lacs |
---|---|---|---|---|
2365 | Rajesh Kulkarni | Moški | Finance | 650000 |
3398 | Pratibha Joshi | Ženska | Skrbnik | 650000 |
7465 | Shushil Roy | Moški | Skrbnik | 500000 |
7500 | Shubhojit Das | Moški | Finance | 500000 |
7699 | Priya Sane | Ženska | Finance | 550000 |
Nestrukturirano
Vsi podatki z neznano obliko ali strukturo so razvrščeni kot nestrukturirani podatki. Poleg tega, da je velikost ogromna, nestrukturirani podatki predstavljajo številne izzive v smislu njihove obdelave, ker iz njih izhajajo vrednost. Tipičen primer nestrukturiranih podatkov je heterogen vir podatkov, ki vsebuje kombinacijo preprostih besedilnih datotek, slik, video posnetkov itd. Zdaj imajo dnevne organizacije na voljo veliko podatkov, vendar na žalost ne vedo, kako iz njih izvleči vrednost ti podatki so v surovi obliki ali nestrukturirani obliki.
Primeri nestrukturiranih podatkov
Rezultat, ki ga vrne »Iskanje Google«
Polstrukturiran
Polstrukturirani podatki lahko vsebujejo obe obliki podatkov. Polstrukturirane podatke lahko vidimo kot strukturirane v obliki, vendar dejansko niso definirani z npr. Definicijo tabele v relacijskih DBMS. Primer polstrukturiranih podatkov so podatki, predstavljeni v datoteki XML.
Primeri polstrukturiranih podatkov
Osebni podatki, shranjeni v datoteki XML
Prashant Rao Male 35 Seema R. Female 41 Satish Mane Male 29 Subrato Roy Male 26 Jeremiah J. Male 35
Rast podatkov v preteklih letih
Upoštevajte, da so podatki spletne aplikacije, ki so nestrukturirani, sestavljeni iz dnevniških datotek, datotek z zgodovino transakcij itd. Sistemi OLTP so zgrajeni za delo s strukturiranimi podatki, pri čemer so podatki shranjeni v relacijah (tabelah).
Značilnosti velikih podatkov
Velike podatke lahko opišemo z naslednjimi značilnostmi:
- Glasnost
- Raznolikost
- Hitrost
- Spremenljivost
(i) Obseg - samo ime Big Data je povezano z velikostjo, ki je ogromna. Velikost podatkov ima zelo pomembno vlogo pri določanju vrednosti podatkov. Od obsega podatkov je odvisno tudi, ali se določeni podatki dejansko lahko štejejo za velike podatke ali ne. Zato je "obseg" ena značilnost, ki jo je treba upoštevati pri obravnavi velikih podatkov.
(ii) Raznolikost - Naslednji vidik velikih podatkov je njihova raznolikost .
Raznolikost se nanaša na heterogene vire in naravo podatkov, tako strukturiranih kot nestrukturiranih. V prejšnjih dneh so bile preglednice in zbirke podatkov edini vir podatkov, ki ga je upoštevala večina aplikacij. Dandanes se v aplikacijah za analizo upoštevajo tudi podatki v obliki e-pošte, fotografij, video posnetkov, nadzornih naprav, datotek PDF, zvoka itd. Ta vrsta nestrukturiranih podatkov predstavlja določena vprašanja pri shranjevanju, rudarjenju in analiziranju podatkov.
(iii) Hitrost - Izraz "hitrost" se nanaša na hitrost pridobivanja podatkov. Kako hitro se podatki generirajo in obdelujejo, da ustrezajo zahtevam, določa dejanski potencial podatkov.
Big Data Velocity se ukvarja s hitrostjo pretoka podatkov iz virov, kot so poslovni procesi, dnevniki aplikacij, omrežja in spletna mesta v družabnih omrežjih, senzorji, mobilne naprave itd. Pretok podatkov je velik in neprekinjen.
(iv) Variabilnost - nanaša se na nedoslednost, ki jo lahko podatki pokažejo včasih, kar ovira postopek učinkovitega ravnanja s podatki in njihovega upravljanja.
Prednosti obdelave velikih podatkov
Zmožnost obdelave velikih podatkov prinaša številne prednosti, kot so
- Podjetja lahko med sprejemanjem odločitev uporabljajo zunanjo inteligenco
Dostop do socialnih podatkov iz iskalnikov in spletnih mest, kot so facebook, twitter, organizacijam omogoča natančnejše prilagajanje njihovih poslovnih strategij.
- Izboljšana storitev za stranke
Tradicionalne sisteme povratnih informacij strank nadomeščajo novi sistemi, zasnovani s tehnologijami Big Data. V teh novih sistemih se za branje in ocenjevanje odzivov potrošnikov uporabljajo tehnologije za obdelavo velikih podatkov in naravnega jezika.
- Zgodnje ugotavljanje tveganja za izdelek / storitve, če obstaja
- Boljša operativna učinkovitost
Tehnologije velikih podatkov je mogoče uporabiti za ustvarjanje vmesnega območja ali območja pristanka za nove podatke, preden se ugotovi, katere podatke je treba premakniti v podatkovno skladišče. Poleg tega takšna integracija tehnologij Big Data in podatkovnega skladišča pomaga organizaciji razbremeniti redko dostopne podatke.
Povzetek
- Opredelitev velikih podatkov: Veliki podatki so opredeljeni kot podatki velike velikosti. Bigdata je izraz, ki se uporablja za opis zbirke podatkov, ki je ogromno in kljub temu eksponentno narašča s časom.
- Primeri analitike velikih podatkov vključujejo borze, spletna mesta v družabnih omrežjih, reaktivne motorje itd.
- Veliki podatki so lahko 1) strukturirani, 2) nestrukturirani, 3) polstrukturirani
- Obseg, raznolikost, hitrost in spremenljivost so nekatere značilnosti velikih podatkov
- Izboljšana storitev za stranke, boljša operativna učinkovitost, boljše odločanje so nekaj prednosti Bigdata