Ce poți face cu toate aceste date?


Ce poți face cu toate aceste date?

Big Data e Analisi dei dati

Big Data și Data Analytics: la ce se referă? 

Termenii "big data" și "analiza datelor" au devenit foarte usuali în ultimii ani. Dar mulți dintre cei care folosesc acești termeni nu înțeleg de fapt ce înseamnă, care sunt posibilitățile și limitările sau care este valoare reală a acestor informații.

În acest articol, vom oferi o introducere de bază a conceptului de Big Data, precum și conceptul mai practic de analiză a datelor. Vom argumenta, de asemenea, că Big Data, chiar dacă este un instrument puternic, nu este neapărat vital pentru orice proiect de analiză a datelor. Vom discuta deci despre unele dintre cele mai frecvente capcane cu care companiile se confruntă în analiza datelor. În cele din urmă, vom examina procesul de bază în ce privește structurarea optimă a unui proces de analiză a datelor pentru a evita astfel de capcane și pentru a obține maximul de la resursele de date disponibile.

Ce sunt Big Data?

Înainte de a vorbi despre cele mai corecte modalități de a efectua "Data Analytics", este important să înțelegem adevăratul sens al Big Data. Termenul Big Data ar putea fi înșelător, deoarece o traducere literară ar duce la ideea că pur și simplu se referă la cantitatea uriașă de date pe care le avem la dispoziție astăzi. Dar aceasta este o definiție reductivă a termenului.

Deși este adevărat că astăzi cantitatea de date disponibile este de neimaginat, conceptul la care ne referim atunci când vine vorba de Big Data sau Big Data Revolution este capacitatea care există azi pentru procesarea, analizarea și proiectarea aplicațiilor obiective din toate aceste informații, sugerând modele de interpretare până acum de neconceput.

Această posibilitate este dată de algoritmi capabili să proceseze o cantitate imensă de date într-un timp scurt și cu puține capacități de calcul.

Informațiile care astăzi, cu un algoritm și un laptop simplu, pot fi prelucrate în câteva ore, până de curând ar fi necesitat o lungă perioadă de timp și calculatoare super scumpe.

Aceasta este revoluția Big Data.

Exemple zilnice de Big Data

Revoluția Big Data a intrat de mult timp în viețile noastre, deși nu o observăm în mod distinct. Să facem câteva exemple practice.

Utilizarea Big Data în marketing se regăsește în așa-numitele metode de recomandare, cum ar fi cele folosite de Netflix sau Amazon pentru a propune oferte de achizitii destinate unui anumit utilizator. Acest lucru se poate face cu precizie, deoarece toate datele de navigare ale unui utilizator, de la achizițiile efectuate, la produsele căutate sau evaluate, permite să sugereze produsele și serviciile cele mai potrivite pentru acea persoană, cele care vor atrage cu siguranță atenția lui. În acest mod algoritmii pot chiar să "descopere" dacă o femeie este însărcinată, pe baza căutărilor ei pentru a-i propune servicii și produse care ar putea să îi fie utile.

Big Data permite chiar găsirea asocierilor neobișnuite: potrivit unor cercetări de data mining, persoanele care cumpără protecții de pâslă pentru mobilă ar fi mai înclinate să își achite datoriile la timp, reprezentând clienții ideali pentru instituțiile de credit.

În viața de zi cu zi găsim multe alte aplicații pentru Big Data.
Să luăm, de exemplu, desfășurarea forțelor de poliție în locuri și momente în care sunt cel mai probabil să apară crime.
Sau studiul asocierilor dintre calitatea aerului și sănătate.
Sau analiza genomică pentru a îmbunătăți rezistența la secetă a cerealelor.

Pentru a înțelege capacitățile imense ale Big Data, este suficient să ne reamintim că în 2008 Google a reușit să prevadă prezența focarelor de gripă pe teritoriile Statelor Unite, mai repede decât a reușit Ministerul Sănătății să facă prin monitorizarea internărilor în spitalele publice și private.
Era doar 2008, și de atunci am mers înainte cu viteza luminii.

ROLUL STATISTICII

Merriam-Webster afirmă că statistica "este o ramură a matematicii care se ocupă cu colectarea, analiza, interpretarea și prezentarea maselor de date numerice." Statistica este un concept cheie care stă la baza Big Data și a analizei datelor. Ideea este de a folosi un subset al universului global de date pentru a trage concluzii despre acel univers de date. De exemplu, se pot colecta măsurători ale greutății unor persoane în încercarea de a estima greutatea medie a tuturor persoanelor. Cum vom vedea, acest exemplu aparent simplu devine mult mai complex, în funcție de caracteristicile datelor.

CARACTERISTICILE DATELOR

Caracteristicile datelor vor determina dacă și cum pot fi utilizate anumite date într-un proiect de analiză a datelor. NIST (National Institute of Standards and Technology) enumeră patru caracteristici principale pe care datele trebuie să le aibă – volum, viteză, varietate și variabilitate – la care Cary, societatea de Data Analytics cu sediul în Carolina de Nord, adaugă a 5-a caracteristică, și anume veridicitatea.

VOLUM: această caracteristică se referă la numărul de data points. Accesul la data points, aparent fără sfârșit, poate însemna capacitatea de a stabili caracteristicile consumatorilor și comportamentele lor probabile cu un grad incredibil de precizie, însă costurile arhitecturii pentru prelucrarea acestor date cresc odată cu volumul.

VITEZĂ: strâns legată de volum, această caracteristică ia în considerare viteza cu care datele sunt sau pot fi colectate.

VARIETATE: datele sunt disponibile în diferite forme. De exemplu, preferințele consumatorilor pot fi măsurate prin revizuirea studiilor pe consumatori, prin monitorizarea căutărilor online sau prin monitorizarea deciziilor de cumpărare.

VARIABILITATE: variabilitatea se referă la modificările datelor în timp. Aceste modificări pot include viteza fluxului de date, formatul datelor sau datele în sine.

VERIDICITATE: datele din diferite surse pot fi mai mult sau mai puțin fiabile. De exemplu, consumatorii pot raporta preferințe care nu corespund comportamentului lor real de cumpărare. Datele de vânzări din unele surse pot fi ambigue sau chiar incorecte în mod intenționat. Veridicitatea se referă la calitatea datelor.

Ce reprezintă analiza datelor (Data Analytics)?

Analiza datelor înseamnă analizarea datelor disponibile. Acesta poate avea mai multe forme, în funcție de intenția analizei:

  • Descriptiv: ce s-a întâmplat?
  • Diagnostic: de ce s-a întâmplat?
  • Predictiv: ce se va întâmpla?
  • Prescriptiv: ce ar trebui făcut?

Complexitatea analizei crește proporțional de la descriptiv la prescriptiv, unde analiza prescriptivă este cel mai ambițios obiectiv final de afaceri. O întrebare descriptivă a analizei datelor ar putea fi: "Câți bani cheltuie consumatorul mediu pe an pentru întreținerea mașinilor?"
Răspunsul poate fi obținut relativ ușor prin analizarea unor date suficiente despre obiceiurile de cumpărare, iar acest răspuns este util în măsura în care contribuie la determinarea dimensiunii pieței disponibile, dar nu este neapărat suficient pentru a ajuta în procesul decizional.

Întrebarea de diagnostic relevantă ar putea fi: "De ce consumatorii cheltuiesc această sumă de bani pentru întreținerea mașinilor? De ce nu cheltuiesc mai mult sau mai puțin? Acest lucru necesită un studiu mai atent al datelor și stabilește anumite conexiuni, cum ar fi obiceiurile de achiziție ale persoanelor din anumite grupuri demografice, grupuri de venit sau regiuni geografice; sau obiceiurile de achiziție în anumite tipuri de întreținere auto sau volumul de cheltuieli cu anumite companii în comparație cu altele.

Monitorizarea predictivă ar fi: "Care obiceiuri de achiziție sunt de așteptat în următorii 5 ani de către consumatori pentru întreținerea autovehiculelor?"

În cele din urmă, întrebarea prescriptivă: "Având în vedere ceea ce credem că este starea actuală și viitoare a pieței, ce ar trebui să facem?"

În analiza noastră ipotetică, o companie de service auto care se confruntă cu această cerere poate decide să investească mai mult într-un anumit domeniu al sectorului, să vizeze mai direct anumite segmente de piață, să compare și să urmeze cele mai bune practici ale anumitor concurenți sau chiar să abandoneze total sectorul.

Analiza datelor necesită întotdeauna Big Data?

Ceea ce distinge big data de un concept mai generalizat al unui eșantion de date este dimensiunea și complexitatea gestionării tuturor acestor date. Big data, prin definiție, constă în cantități uriașe de date care necesită o capacitate enormă de procesare pentru a fi utilizate în mod eficient.

O companie are nevoie de Big Data pentru a efectua în mod eficient analiză datelor? Nu neapărat, dar depinde de analiză. Statisticile devin mai precise pe măsură ce dimensiunea setului de date crește. Și răspunsul precis la întrebări complexe devine mai ușor, deoarece acuratețea concluziilor statistice de la bază ei este mai precisă.

Prin urmare, o companie care are nevoie să analizeze procentul defectelor din procesul său de fabricație al saltelelor din ultimii trei ani, probabil, nu va trebui să profite de big data. Însă, în cazul în care aceeași societate dorește să efectueze o analiză prescriptivă a unui plan de afaceri pentru a intra pe piața saltelelor high-end din Asia de Sud-Est într-o perioadă de cinci ani, este posibil să aibă nevoie de cantități mari de date pentru a se asigura că estimările și previziunile sale sunt suficient de exacte pentru a justifica planul de acțiune.

Probleme comune în analiza datelor

Companiile care doresc să profite de analiza datelor trebuie să ia în considerare o serie de capcane potențiale, amintind că o companie ar putea cheltui sume uriașe de timp, bani și alte resurse pe un proiect de analiză a datelor cu puțin sau deloc beneficiu, sau, chiar mai rău, să ia în final o decizie pripită. Iată câteva greșeli care se pot evita.

Nici un obiectiv clar: unele companii ar putea vedea big data ca pe o baghetă magică iar analiza datelor ca pe o cură miraculoasă pentru dificultățile lor și ar putea gândi: "Dacă putem obține date, răspunsul va fi clar." Colectarea datelor de la miliarde de data points și canalizarea lor într-o cutie neagră, care dă informații valoroase nu este modul corect de a valorifica analiza datelor. Companiile care decid să facă Data Analytics fără un obiectiv clar riscă să cheltuiască resurse semnificative fără a aduce vreun beneficiu tangibil.

Obiective prea pretențioase: aproape la fel de mult ca atunci când nu există un obiectiv clar, și existența unuia prea ambițios poate fi o capcană. Companiile trebuie să ia în considerare resursele și capacitățile lor înainte de a-și stabili propriile obiective de analiză a datelor. O companie cu un buget de 5.000 de dolari și un singur angajat cu normă întreagă alocat la un proiect pilot de analiză date, nu se poate aștepta să prezică tendințele în preferințele consumatorilor în Statele Unite ale Americii pentru anul viitor. Dar poate fi capabil să identifice cele mai productive ore de lucru pe una din liniile sale de producție.

Fondarea deciziilor pe date incorecte: după cum s-a discutat anterior, scopul final al analizei datelor este de a determina un curs corect de acțiune, având în vedere starea actuală și prevăzută a afacerii. Dacă deciziile privind modul corect de acțiune se bazează pe evaluarea greșită a situației actuale și viitoare, aceste decizii s-ar putea dovedi dezastruoase. De aceea, analiza prescriptivă necesită investiții adecvate în resursele necesare pentru a asigura analize descriptive, diagnostice și predictive exacte.

Structurarea unui proiect eficient de analiză a datelor

Conștienți de ceea ce poate să nu meargă bine, haideți să vedem cum să facem să funcționeze un proiect de analiză a datelor și să considerăm câțiva pași cheie pentru structurarea unui proiect eficient Data Analytics.

Stabilirea de obiective clare. Companiile care doresc să utilizeze analiza datelor trebuie să aibă o idee clară despre ceea ce speră să obțină din această inițiativă, indiferent dacă analiza este descriptivă, diagnostică, predictivă sau prescriptivă.

Formularea clară a întrebărilor. Fie că este vorba despre estimarea stării actuale a pieței sau determinarea poziției companiei în următorul an, este important să se formuleze întrebări de bază clare. De exemplu, pentru a ști de ce consumatorii preferă un anumit brand de saltele, companiile trebuie să afle mai întâi ce mărci preferă, care sunt caracteristicile acestor mărci, ce calități apreciază consumatorii în raport cu altele etc.

Dezvoltarea unei strategii pentru a răspunde la aceste întrebări. Cum să răspundeți la o întrebare despre preferințele consumatorilor? Strategia ar putea include efectuarea de sondaje, analizarea datelor de căutare online și a deciziilor de cumpărare, dialogul cu experții consumatorilor sau o combinație a acestor strategii și a altora.

Culegerea datelor. Faza de colectare a datelor este, în esență, executarea strategiilor identificate în faza anterioară: efectuarea de sondaje, colectarea datelor privind achizițiile sau căutările online etc.

Analiza. În funcție de tipul analizei datelor efectuate, acesta poate fi un pas extrem de complex. În cazul în care analiza este pur și simplu descriptivă, aceasta poate fi la fel de simplă ca numărarea sau calcularea unei medii. Ceva care implică tragerea unor concluzii cu privire la corelațiile dintre date și previziunile viitoare este, evident, mult mai complicat.

Iterarea. Ca în multe activități, este destul de puțin probabil ca analiza exactă a datelor să se facă din prima. Este posibil ca sursele de date să nu fie adevărate sau volumul să fie insuficient, concluziile s-ar putea baza pe conexiuni inexacte între date etc. Dar prin repetarea procesului, învățarea din greșeli și efectuarea schimbărilor necesare, companiile pot obține o expertiză semnificativă în timp în ceea ce privește analiza datelor.

 

Companiile au diverse resurse la dispoziția lor, pe care le folosesc pentru a genera profit. Aceste resurse pot include bunuri materiale, cum ar fi angajații, materiile prime, clădirile și echipamentele. Dar acestea includ, de asemenea, active necorporale, cum ar fi proprietatea intelectuală și datele. Datele sunt un asset valoros și multe companii abia încep să le înțeleagă.

Big Data și analiza datelor par să fie concepte complexe, doar la îndemâna celor mai avansate companii din punct de vedere tehnologic, dar, în realitate, ele sunt complexe numai în măsura în care decideți să le utilizați. Dacă înțelegeți aceste concepte, puteți defini cu precizie un obiectiv de analiză a datelor și puteți obține rezultate semnificative și eficiente.

Cheia este să nu te lași copleșit de cantitatea imensă de date, să nu să fii prea ambițios cu privire la posibilitățile tale reale și să proiectezi în mod clar planul de analiză al datelor.

 

Sursă: www.bedtimesmagazine.com, www.cloudtalk.it