Què és el Big Data?
En els anys noranta, l’informàtic teòric nord-americà John Mashey va publicar un article titulat Big Data and the Next Wave of Infrastress (Big Data i la propera ona de Infrastress), popularitzant el terme. En ell, Mashey feia referència a l’estrès que anaven a sofrir les infraestructures físiques i humanes de la informàtica a causa de l’imparable tsunami de dades que ja s’atalaiava en l’horitzó, immanejable amb els instruments de gestió a l’ús… però, què significa exactament?
Segons la Wikipedia, Big Data es refereix a conjunts de dades que creixen tan ràpidament que no poden ser manipulats per les eines de gestió de bases de dades tradicionals. No obstant això, la grandària no és l’únic problema al qual ens enfrontem si busquem una solució: a més d’emmagatzemar-ho, és necessari capturar, consultar, gestionar i analitzar tota aquesta informació.
Com es caracteritzen les dades?
Big Data va néixer amb l’objectiu de cobrir unes necessitats no satisfetes per les tecnologies existents, com és l’emmagatzematge i tractament de grans volums de dades que posseeixen unes característiques molt concretes definides com les tres V’s:
- Volum, fa referència a la grandària de les dades que poden provenir de múltiples fonts.
- Velocitat, defineix la rapidesa amb què arriben les dades usant unitats com tera, peta o exa bytes
- Varietat, parlem de dades:
- Estructurades
- Semiestructurades
- No estructurades.
A qui el Big Data planteja un problema?
Al marge de l’anàlisi de tendències de negoci, els científics es troben regularment amb problemes generats per l’emmagatzematge i processament de Big Data en la recerca biològica, simulacions físiques complexes, meteorologia…
Sense anar-nos en aquests extrems, no són poques les grans companyies que hauran d’enfrontar-se a aquest problema a curt termini i aprendre a explotar la informació per obtenir un avantatge competitiu. Per exemple, per a moltes companyies és necessari mantenir al llarg de temps, sigui per imposició legal o per pura operativitat, un gran nombre de dades estructurades i no estructurats: grans masses de documents, emails, i altres formes de comunicació electrònica que és necessari emmagatzemar o consultar i que no fan una altra cosa que créixer de forma exponencial.
Nosaltres mateixos generem cada dia Big Data!
No obstant això, el concepte de Big Data s’estén més enllà del que estem acostumats a entendre per “grans volums d’informació”. Sempre que fem una cerca, enviem un email, utilitzem un telèfon mòbil, actualitzem una xarxa social, fem servir la targeta de crèdit, anem al gimnàs, activem el GPS o fem la compra en el supermercat deixem darrere de nosaltres una muntanya de dades, empremtes digitals i registres que ofereixen una informació molt valuosa i l’estudi de la qual és l’ambició de tot analista. L’enorme quantitat de dades que generen empreses, usuaris i dispositius, ha experimentat un creixement explosiu que requereix la seva anàlisi per obtenir avantatges competitius. El Big Data s’està convertint en el punt d’inflexió de les empreses que aconsegueixen “dominar-ho”, empreses que s’han adonat que la manera d’obtenir avantatge és tenir la capacitat de processar un dels seus principals actius: la informació que la mateixa empresa genera.
El Creixement exponencial del Big Data
Tinguem en compte que actualment el ritme de creixement de les dades és exponencial, d’aquesta manera, és lògic pensar en noves eines que ens ajudin en el tractament d’aquestes sitges d’informació, que poden provenir de múltiples i diferents canals, com:
- Històric de dades, dades acumulades durant anys, que poden llançar estadístiques i tendències molt representatives
- Xarxes socials, molt útils si podem filtrar i analitzar el feedback dels nostres clients i proveïdors.
- ClickStream, conèixer la navegació i l’ús que fan els nostres clients del nostre lloc web.
- Sensors, poden arribar a generar autèntiques muntanyes de dades per avaluar.
- Dispositius mòbils, la incorporació dels mateixos a les estructures empresarials seguint BYOD (Bring Your Own Device).
- Internet, és una poderosa eina si som capaces d’organitzar la informació que necessitem.
En plantejar-nos la necessitat de dur a terme una implantació de big data, hem de tenir en compte que d’una banda disposarem d’una solució per a les nostres dades estructurades (RDBMS convencional) i no estructurats o semi (Hadoop) i que necessitarem donar resposta a l’anàlisi de dades, per a això l’ecosistema Big data disposa de múltiples solucions, algunes de baix nivell i unes altres que ens abstreuen d’aquesta complexitat, però que necessitarem respondre.
Altres reptes del Big Data: els Analistes i la Privadesa
No obstant això no seria correcte oblidar altres reptes, al marge dels tecnològics, que ens trobarem en dur a terme aquesta tasca. En primer lloc, les dades per elles mateixes són incapaces de produir un benefici. Solament els humans que sàpiguen entendre-les i explotar-les podran fer-ho. És per això que a més de la tecnologia necessària per moure tal volum de dades, és necessari a finar al màxim les metodologies i processos que s’utilitzen per accedir i explotar aquesta informació. D’altra banda, la privadesa. Com es podrien garantir els drets fonamentals de privadesa dels usuaris davant un escenari així? Seran encara aplicables o tècnicament viables alguns requisits legals com el dret d’accés en uns anys? El temps respondrà les nostres preguntes… 😉
Si t’ha interessat aquest article i gràcies a ell hi veus més clar, comparteix-lo ara! Merci!