Muito, mas muito mesmo tem se falado em big data.

Apesar do assunto não ser tão novo assim (veja essa matéria do Baguete sobre Oportunidades em Big Data), ocorre muita confusão em torno do tema.

A emergência das tecnologias de computação em nuvem (cloud computing) na parte de infra-estrutura, e processamento distribuído de grandes quantidades de dados não estruturados por meio de ferramentas como o Hadoop, fizeram florecer novas possibilidades de captura e processamento de informações.

Com estas tecnologias, a capacidade de processamento de dados fica praticamente ilimitada.

O que significa Big Data

A empresa mais conhecida e inovadora em Big Data é o Google, que extrai dados de trilhões de sites e realiza a indexação para permitir buscas otimizadas. Porém, o termo se tornou mais popular quando o Yahoo transformou a plataforma Hadoop em open source.

Big data é um termo amplo para um extenso conjunto de dados tão grande que as aplicações de processamento de dados tradicionais são inadequadas para tratá-los (Wikipedia). Muitas vezes o termo inclui a utilização de dados não estruturados neste conjunto. Bancos de dados relacionais padrão têm dificuldades em processar este tipo de informação.

O Gartner utiliza 3 Vs para descrever big data: Volume, Velocidade e Variedade. Alguns pesquisadores adicionam mais 2 Vs: Veracidade e Variabilidade (mudanças ao longo do tempo).

Processos envolvidos no big data incluem extração de dados (captura), curadoria, carga de dados, mecanismos de busca, armazenamento, visualização, análise por meio de ferramentas (analytics) e previsão por meio da construção de modelos preditivos estatísticos. A geração de valor, desde a captura dos dados, até sua análise para tomada de decisões, está explicada em A Cadeia de Valor do Big Data.

Extraindo valor do Big Data

Com uma vasta quantidade de dados organizados em uma base, é possível utilizar técnicas para extrair valor dos dados e obter insights para a tomada de decisão nos negócios. Ferramentas poderosas de visualização de dados e analytics, como GoodData e Tableau, contribuem para facilitar esta tarefa. O ferramental estatístico disponível, como regressões múltiplas, análise fatorial, clusterização e séries temporais permitem a construção de modelos preditivos. Técnicas avançadas de inteligência artificial, incluindo redes neurais artificiais (RNAs), redes convolucionais, aprendizado de máquina (machine learning) e deep learning completam o pacote.

Muitas empresas nos Estados Unidos estão utilizando a tecnologia, e algumas no Brasil estão fazendo investimentos pesados.

A Econodata utiliza e desenvolve a tecnologia de big data para o aprimoramento de seus produtos.