Kaj so VELIKI PODATKI? Uvod, vrste, značilnosti, primer

Preden gremo na uvod v Big Data, morate najprej vedeti

Kaj so podatki?

Količine, znaki ali simboli, na katerih operacije izvaja računalnik, ki jih je mogoče shraniti in prenašati v obliki električnih signalov in snemati na magnetni, optični ali mehanski snemalni medij.

Zdaj pa se naučimo uvajanja velikih podatkov

Kaj so veliki podatki?

Big Data je zbirka podatkov, ki je ogromna, vendar s časom eksponentno narašča. Gre za podatke s tako veliko velikostjo in zapletenostjo, da jih nobeno tradicionalno orodje za upravljanje podatkov ne more shraniti ali učinkovito obdelati. Veliki podatki so tudi podatki, vendar z veliko velikostjo.

V tej vadnici boste izvedeli,

Kaj so podatki?
Kaj so veliki podatki?
Primeri velikih podatkov
Vrste velikih podatkov
Značilnosti velikih podatkov
Prednosti obdelave velikih podatkov

Primeri velikih podatkov

Sledi nekaj primerov velikih podatkov -

New York Stock Exchange ustvari približno en terabajt novih trgovinskih podatkov na dan.

Socialni mediji

Statistični podatki kažejo, da se 500 + terabajtov novih podatkov vsak dan vnese v baze podatkov spletnega mesta Facebook v družabnih omrežjih . Ti podatki so v glavnem ustvarjeni v smislu nalaganja fotografij in videov, izmenjave sporočil, dajanja komentarjev itd.

En motor Jet lahko ustvari 10 + terabajtov podatkov v 30 minutah leta. Z več tisoč leti na dan generacija podatkov doseže veliko Petabajtov.

Vrste velikih podatkov

Sledijo vrste velikih podatkov:

Strukturirano
Nestrukturirano
Polstrukturiran

Strukturirano

Vsi podatki, ki jih je mogoče shraniti, dostopati do njih in jih obdelovati v obliki nespremenljive oblike, se imenujejo „strukturirani“ podatki. V določenem časovnem obdobju je talent na področju računalništva dosegel večji uspeh pri razvoju tehnik za delo s tovrstnimi podatki (kjer je oblika dobro znana vnaprej) in iz tega tudi izvablja vrednost. Danes pa predvidevamo težave, ko se velikost takih podatkov močno poveča, tipične velikosti pa so v besu več zettabajtov.

Ali veš? 10 ²¹ bajtov, enakih 1 zettabajtu ali eni milijardi terabajtov, tvori zettabyte .

Če pogledamo te številke, lahko zlahka razumemo, zakaj je podano ime Big Data, in si predstavljamo izzive, povezane z njegovim shranjevanjem in obdelavo.

Ali veš? Podatki, shranjeni v sistemu upravljanja relacijske baze podatkov, so en primer "strukturiranih" podatkov.

Primeri strukturiranih podatkov

Tabela 'Zaposleni' v zbirki podatkov je primer strukturiranih podatkov

ID zaposlenega	Ime zaposlenega	Spol	Oddelek	Plača_In_lacs
2365	Rajesh Kulkarni	Moški	Finance	650000
3398	Pratibha Joshi	Ženska	Skrbnik	650000
7465	Shushil Roy	Moški	Skrbnik	500000
7500	Shubhojit Das	Moški	Finance	500000
7699	Priya Sane	Ženska	Finance	550000

Nestrukturirano

Vsi podatki z neznano obliko ali strukturo so razvrščeni kot nestrukturirani podatki. Poleg tega, da je velikost ogromna, nestrukturirani podatki predstavljajo številne izzive v smislu njihove obdelave, ker iz njih izhajajo vrednost. Tipičen primer nestrukturiranih podatkov je heterogen vir podatkov, ki vsebuje kombinacijo preprostih besedilnih datotek, slik, video posnetkov itd. Zdaj imajo dnevne organizacije na voljo veliko podatkov, vendar na žalost ne vedo, kako iz njih izvleči vrednost ti podatki so v surovi obliki ali nestrukturirani obliki.

Primeri nestrukturiranih podatkov

Rezultat, ki ga vrne »Iskanje Google«

Polstrukturiran

Polstrukturirani podatki lahko vsebujejo obe obliki podatkov. Polstrukturirane podatke lahko vidimo kot strukturirane v obliki, vendar dejansko niso definirani z npr. Definicijo tabele v relacijskih DBMS. Primer polstrukturiranih podatkov so podatki, predstavljeni v datoteki XML.

Primeri polstrukturiranih podatkov

Osebni podatki, shranjeni v datoteki XML

Prashant RaoMale35Seema R.Female41Satish ManeMale29Subrato RoyMale26Jeremiah J.Male35

Rast podatkov v preteklih letih

Upoštevajte, da so podatki spletne aplikacije, ki so nestrukturirani, sestavljeni iz dnevniških datotek, datotek z zgodovino transakcij itd. Sistemi OLTP so zgrajeni za delo s strukturiranimi podatki, pri čemer so podatki shranjeni v relacijah (tabelah).

Značilnosti velikih podatkov

Velike podatke lahko opišemo z naslednjimi značilnostmi:

Glasnost
Raznolikost
Hitrost
Spremenljivost

(i) Obseg - samo ime Big Data je povezano z velikostjo, ki je ogromna. Velikost podatkov ima zelo pomembno vlogo pri določanju vrednosti podatkov. Od obsega podatkov je odvisno tudi, ali se določeni podatki dejansko lahko štejejo za velike podatke ali ne. Zato je "obseg" ena značilnost, ki jo je treba upoštevati pri obravnavi velikih podatkov.

(ii) Raznolikost - Naslednji vidik velikih podatkov je njihova raznolikost .

Raznolikost se nanaša na heterogene vire in naravo podatkov, tako strukturiranih kot nestrukturiranih. V prejšnjih dneh so bile preglednice in zbirke podatkov edini vir podatkov, ki ga je upoštevala večina aplikacij. Dandanes se v aplikacijah za analizo upoštevajo tudi podatki v obliki e-pošte, fotografij, video posnetkov, nadzornih naprav, datotek PDF, zvoka itd. Ta vrsta nestrukturiranih podatkov predstavlja določena vprašanja pri shranjevanju, rudarjenju in analiziranju podatkov.

(iii) Hitrost - Izraz "hitrost" se nanaša na hitrost pridobivanja podatkov. Kako hitro se podatki generirajo in obdelujejo, da ustrezajo zahtevam, določa dejanski potencial podatkov.

Big Data Velocity se ukvarja s hitrostjo pretoka podatkov iz virov, kot so poslovni procesi, dnevniki aplikacij, omrežja in spletna mesta v družabnih omrežjih, senzorji, mobilne naprave itd. Pretok podatkov je velik in neprekinjen.

(iv) Variabilnost - nanaša se na nedoslednost, ki jo lahko podatki pokažejo včasih, kar ovira postopek učinkovitega ravnanja s podatki in njihovega upravljanja.

Prednosti obdelave velikih podatkov

Zmožnost obdelave velikih podatkov prinaša številne prednosti, kot so

Podjetja lahko med sprejemanjem odločitev uporabljajo zunanjo inteligenco

Dostop do socialnih podatkov iz iskalnikov in spletnih mest, kot so facebook, twitter, organizacijam omogoča natančnejše prilagajanje njihovih poslovnih strategij.

Izboljšana storitev za stranke

Tradicionalne sisteme povratnih informacij strank nadomeščajo novi sistemi, zasnovani s tehnologijami Big Data. V teh novih sistemih se za branje in ocenjevanje odzivov potrošnikov uporabljajo tehnologije za obdelavo velikih podatkov in naravnega jezika.

Zgodnje ugotavljanje tveganja za izdelek / storitve, če obstaja
Boljša operativna učinkovitost

Tehnologije velikih podatkov je mogoče uporabiti za ustvarjanje vmesnega območja ali območja pristanka za nove podatke, preden se ugotovi, katere podatke je treba premakniti v podatkovno skladišče. Poleg tega takšna integracija tehnologij Big Data in podatkovnega skladišča pomaga organizaciji razbremeniti redko dostopne podatke.

Povzetek

Opredelitev velikih podatkov: Veliki podatki so opredeljeni kot podatki velike velikosti. Bigdata je izraz, ki se uporablja za opis zbirke podatkov, ki je ogromno in kljub temu eksponentno narašča s časom.
Primeri analitike velikih podatkov vključujejo borze, spletna mesta v družabnih omrežjih, reaktivne motorje itd.
Veliki podatki so lahko 1) strukturirani, 2) nestrukturirani, 3) polstrukturirani
Obseg, raznolikost, hitrost in spremenljivost so nekatere značilnosti velikih podatkov
Izboljšana storitev za stranke, boljša operativna učinkovitost, boljše odločanje so nekaj prednosti Bigdata