O que é Big Data?

Olá!

Saber o que é Big Data foi a motivação para ingressar na pós-graduação. Estava suficientemente confuso sobre o que era este paradigma e desde então tento entender o que ele realmente nos traz de diferente. Minha cabeça explode quando vejo casos clássicos de Data Mining e BI sendo agora apresentados nessa nova era como sendo de Big Data, por isso, achei interessante compartilhar aqui meu pensamento após sete meses de curso.

A maior parte da mídia diz que Big Data é o processamento de dados que possuam volume, variedade de fontes e necessidade de velocidade de processamento bem superior à oferecida por uma solução ACID/transacional padrão. Por estes motivos popularizaram os “V’s” do Big Data (Volume, Variedade e Velocidade). Discordo de dois deles e acho que este termo está ignorando um V que para mim, é o que está fazendo toda diferença neste novo paradigma… chegarei lá :-).

Discordo do item Volume pelo motivo que a tecnologia avança de tal forma que ela atropela este fator. O que é grande hoje não será grande amanhã, volume é uma medida que cresce de forma absurda (ou você imaginava há 15 anos atrás que haveria demanda para processar 1TB de dados? Eu não!). Já o item Variedade faz pouco sentido também: tanto no processamento analítico tradicional quanto no que é feito em Big Data pode haver diversidade considerável de fontes de dados, já que em ambos há exigência de preparar o dado antes de consumi-lo. Outra coisa que costumam dizer sobre Variedade é que desconhecemos a origem dos dados… como assim?! Se você está coletando-o, algum conhecimento sobre sua estrutura você tem. Agora, se o que você chama de Variedade estiver relacionado com  Armazenamento, então espera, em Big Data isso muda bastante. Neste último temos os bancos de dados NoSQL e suas variantes para lidar, como já muito bem conceituado no livro NoSQL Essencial.

Um V que alguns autores estão chamando de 4° V, que para mim poderia tranquilamente substituir um dos dois que comentei acima é a Veracidade. De fato, a palavra apenas lasca o sentido do que ela realmente significa em Big Data. Veracidade significa autenticidade, o quão real aquele fato que está medindo é. Só que em Big Data este V não trata somente da governança e curadoria dos dados para garantir sua autenticidade, e sim dos métodos e algoritmos que você utiliza para extrair os fatos que estão escondidos na massa de dados que você possui, que as tecnologias de banco de dados relacionais atuais não permitem extrair. Aqui é que surge a figura do Data Scientist, como também a de termos como Natural Language Processing e Machine Learning.

Com isso, a definição de Big Data que guardo para mim é:

Big Data é um paradigma de processamento aplicado para substituir soluções de dados ineficientes do ponto de vista qualitativo (performance/velocidade), ou para suportar a descoberta e extração de fatos relevantes a partir de uma massa de dados de natureza estruturada ou desestruturada, utilizando para isso técnicas estatísticas, matemáticas e/ou de inteligência artificial automatizadas por computação.

Esta definição acho mais sensata pois ela ignora os Vs de Volume e Variedade que eu desaprovo nos dias de hoje. Aguardo os comentários em nosso grupo do Linkedin para saber se você concorda ou não com esta definição.

Até!
Adriano Laranjeira.

Anúncios