A verdade por trás do Big Data: o grande problema do século 21
Se você chegou até aqui é provável que saiba que os dados são o petróleo do século XXI. E sim, você está certo.
O Big Data vem trazendo inovações nos mais diversos segmentos e vemos aplicações singulares em: análises financeiras, redução de taxas de churn, personalização de serviços, varejo, direção de ações de marketing e maximização do ROI, aplicações em hospitais e saúde pública, prevenção de epidemias, combate a corrupção e construção de cidades inteligentes.
Porém, acredito que nesse artigo serei visto como portador de notícias ruins, pois essa tecnologia que consiste basicamente na grande quantidade de dados tem sido um grande problema para as empresas.
E respondendo algo que talvez esteja em sua cabeça, não vou falar nada sobre machine learning, apenas vou citar o seu significado no dicionário dos termos da hype.
Esse não é um post técnico, e não vou me aprofundar em ferramentas, mas sim na análise do Big Data como uma tecnologia emergente, onde farei um estudo sobre o seu mercado e sobre os problemas envolvidos. Continue lendo para entender do que eu estou falando.
Nesse post vamos desmistificar uma das grandes “hypes” da atualidade: o Big Data.
Para facilitar seu entendimento dividi o conteúdo em partes, onde você poderá aprender:
- Big Data é um problema e não uma solução;
- Segredos do Big Data analytics;
- 8 leis do Big Data;
- Dicionário dos termos da hype;
- Conclusão;
Big Data é um problema e não uma solução
De acordo com a TechAmerica, o Big Data é um termo que descreve dados variáveis, complexos, de grande volume e de alta velocidade que exigem técnicas e tecnologias avançadas para permitir a captura, armazenamento, distribuição, gerenciamento e análise de informação.
Esse é um recurso de informações de alta velocidade e/ou de alta variedade que exige formas inovadoras e econômicas de processamento de informações que possibilitam insights aprimorados, tomada de decisões e automação de processos.
Dessa forma podemos entender o Big Data por meio dos 5 V´s:
- volume;
- velocidade;
- variedade;
- veracidade;
- valor.
Segundo a Gartner, hoje são movimentados cerca de 2,2 milhões de terabytes em dados diariamente, a previsão é que para 2020 exista 40 trilhões de gigabytes.
A partir de análises sobre esse mercado podemos observar um salto na movimentação financeira de US$ 28 bilhões para US$ 50 bilhões em apenas três anos. A previsão é que movimente US$ 102 bilhões em 2019.
Podemos confirmar essa tendência observando o gráfico abaixo que mostra o faturamento em bilhões de dólares no mercado mundial.
Fonte: The Big Data Group
Para dar mais ênfase a esse estudo fiz uma pesquisa no Google Trends sobre o termo “Big Data”. Você pode notar no gráfico abaixo que as buscas aumentaram bastante a partir de 2012.
Vale dar uma olhada nos países que mais procuram sobre o tema no Google, outro fato que aponta o crescimento dessa tendência que cresce cada dia mais.
É mais complexo que imaginamos
O mercado está inflado e os investidores estão com os olhos brilhando, então, vamos imaginar um cenário fictício.
Pense comigo, você é uma empresa de Marketing de Conteúdo, e assim como a Rock Content seu produto é um SaaS, e você tem 100 usuários utilizando. De um dia para o outro seus usuários passam de 100 para 1.000, então se seu servidor não estiver preparado ele vai cair, deixando todos seus clientes na mão.
Concorda comigo que essa grande quantidade de dados é problema?
Agora você também já deve estar pensando que armazenar essa grande quantidade de dados não seja barato. Dessa forma surgiu um herói que vai batalhar contra esse problema: o engenheiro de dados.
Esse profissional deve lidar com uma quantidade cada vez mais extensa de dados que demandam uma maior utilização de serviços.
Esses serviços a cada dia demandam tecnologias de maior complexidade que gera maiores possibilidades de falhas e levam para as empresas a necessidade de investir mais em infraestrutura e capacitação de seus profissionais.
Conforme aprendi no post o que faz um engenheiro de dados, do meu amigo Allan Sene, engenheiro de dados na MaxMilhas:
O Data Engineer é então responsável por garantir que os dados estejam disponíveis para a análise de forma segura. Engenheiros de dados constroem reservatórios para Big Data. Além disso, eles desenvolvem, constroem, testam e mantêm arquiteturas, tais como bancos de dados e sistemas de processamento de dados em grande escala. Uma vez que eles estão disponíveis, profissionais como Cientista de Dados e Analista de Dados podem aplicar técnicas analíticas para extrair conhecimento. É de sua total responsabilidade sobre os dados: coleta, transformação, armazenamento e disponibilidade.
Podemos concluir que ao falar de Big Data precisamos antes pensar no profissional que vai tocar esse barco.
Conheça as tecnologias envolvidas
Na imagem a seguir você poderá ver uma lista com as tecnologias envolvidas no Big Data, aproveito e recomendo o blog do Dave Feinleib (em inglês) de onde encontrei esse mapa de tecnologias envolvidas no Big Data.
Fonte: Forbes
Você poderá observar na próxima imagem que de 2012 para 2017 o número de tecnologias envolvidas no Big Data aumentou substancialmente e fica até difícil de conseguir acompanhar tantos negócios que estão surgindo para seguir o crescente aumento de dados — e ainda vai aumentar muito mais.
Logo abaixo temos o início da construção do Big Data Landscape, onde você poderá ter um vago entendimento sobre a utilização dessa tecnologia (lembrando que esse não é um post técnico).
Portanto, vamos entender melhor sobre a análise dessa quantidade massiva de dados, que é popularmente chamado de Big Data Analytics.
Os segredos do Big Data analytics
Após o momento de sua empresa conseguir armazenar com segurança essa grande quantidade de dados surge uma nova demanda, que não está ligada a quantidade de dados, mas ao que será feito a partir deles.
Na pesquisa do Google Trends abaixo você verá uma análise da palavra-chave “Analytics Big Data”, que também nos mostra que apenas o Big Data por si só não agrega valor para ninguém.
Portanto, ao analisar grandes quantidades de dados você precisa saber sobre seus 4 grandes pilares. Vou dividi-los entre análise do futuro e do passado.
Análise do Futuro
Análise preditiva
Este tipo de análise contempla o estudo do futuro, ou seja, estamos falando sobre conhecer e tentar prever tendências futuras, com base em dados históricos e estatísticos. Normalmente este processo é feito por meio da mineração de dados, mas também pode ser realizado de diversas outras formas.
Um exemplo interessante é utilizado pelas corretoras da bolsa de valores, com o objetivo de prever o preço das ações. Chamamos isso de forecasting, que basicamente consiste em processos de estimativas de situações cercadas de incertezas.
Análise prescritiva
Cuidado para não confundir análise preditiva com análise prescritiva, pois isso é um erro comum.
Nesse caso estamos falando sobre as consequências que cada ação vai acarretar no futuro. Esse tipo de análise é o menos presente nas empresas — não deveria, pois também é muito importante.
Dessa forma, as análises prescritivas traçam cenários específicos sobre cada situação e buscam identificar a resposta que cada ação irá trazer.
Podemos identificar aplicações notáveis na saúde onde é importante apontar e prever padrões, por exemplo com relação a doenças em determinados grupos de pacientes que vai fornecer métricas acertadas e propiciar aos profissionais da saúde a tomada de decisões estratégicas.
Análise do Passado
Análise descritiva
Aqui o objetivo é descrever, detalhar e resumir os dados, com base em informações já existentes que são extraídas através do tempo.
Nesse caso, é preciso ter dados suficientes para conseguir fazer uma análise real sem base em achismos e heurísticas. Aqui podem ser analisados dados referentes a pessoas, negócios e até populações inteiras.
Empresas de seguros, e-commerces, bancos e corretoras de investimentos utilizam diariamente essas técnicas para fazer avaliações em seus clientes. Uma corretora de seguro de automóveis pode, por exemplo, analisar o perfil de um cliente com relação a veracidade das informações e entender se está falando a verdade ou não. Esse tipo de modelo também pode ser utilizado na prevenção de fraude por clientes mal intencionados.
Análise diagnóstica
Basicamente encontramos uma diferença com relação a análise descritiva, sendo que ao falarmos de análise diagnóstica o objetivo é entender a razão e a causa dos desdobramentos de uma determinada ação, identificando seu impacto e alcance, possibilitando a tomada de decisão mais rápida e acertada em relação aos processos tradicionais.
Um exemplo notável é ao observar empresas que realizam análise de sentimentos em publicações de redes sociais, possibilitando identificar quem é o verdadeiro público alvo de uma campanha de social media e aqueles que são mais ou menos impactados e propensos a comprar um determinado produto ou não.
Com a atual discussão com relação a segurança de dados, vale lembrar de um caso muito interessante envolvendo Big Data.
Provavelmente você já deve ter ouvido falar sobre a Target, uma varejista gigante dos Estados Unidos, que construiu um perfil ideal de seus clientes através de seu Big Data, onde analisou dados demográficos, hábitos de compras, histórico de pesquisas, cruzamento de dados e demais informações para conseguir prever se suas clientes estavam grávidas ou não.
Por meio desse conhecimento passaram a enviar malas diretas com produtos de bebês para aquelas clientes que a previsão informou estarem grávidas. Um homem que recebeu essas malas ficou revoltado com a situação e ao averiguar melhor descobriu que sua filha estava esperando um bebê.
Outros termos da “hype” que você precisa conhecer
Mineração de Dados (Data Mining)
O processo de descobrir correlações, padrões e tendências significativos analisando grandes quantidades de dados armazenados em repositórios. A mineração de dados emprega tecnologias de reconhecimento de padrões, bem como técnicas estatísticas e matemáticas.
Aprendizado de Máquina (Machine Learning)
Consiste em uma tecnologia capaz de aprender com dados e conseguir ensinar.
Com machine learning é possível criar previsões com precisão científica que auxiliam na tomada de decisões mais inteligentes, sem que necessite existir alguma forma de intervenção humana.
Machine learning é usado com intuito de reproduzir comportamentos padrões previamente conhecidos, aplicando isso automaticamente a outros dados e podendo utilizar em tempo real nas tomadas de decisões. Você pode saber mais neste post que falo sobre machine learning e Issac Azimov.
Inteligência Empresarial (Business Intelligence)
O business intelligence é um processo orientado por tecnologia para analisar dados e apresentar informações acionáveis para ajudar executivos, gerentes e outros usuários finais corporativos a tomarem decisões de negócios bem informadas.
People Analytics
A análise avançada pode melhorar drasticamente a maneira como as organizações identificam, atraem, desenvolvem e retêm talentos.
No entanto, muitas organizações ainda tomam essas decisões com base no instinto e na intuição. O People Analytics ajuda gerentes e líderes de talentos sênior a liberar o poder dos dados — aumentando o rigor, reduzindo o viés e melhorando o desempenho.
Ciência de Dados (Data Science)
Também conhecida como ciência orientada por dados, a ciência de dados é um campo interdisciplinar de métodos, processos, algoritmos e sistemas científicos para extrair conhecimento ou insights de dados em várias formas, estruturadas ou não, semelhantes à mineração de dados.
Inteligência Artificial (Artificial Intelligence)
Hoje, a inteligência artificial é conhecida como AI restrita (ou AI fraca), pois é projetada para executar uma tarefa restrita (por exemplo, apenas reconhecimento facial ou apenas pesquisas na Internet ou apenas dirigir um carro).
No entanto, o objetivo de longo prazo de muitos pesquisadores é criar AI geral (AGI ou AI forte). Embora a AI estreita possa superar os humanos em qualquer que seja sua tarefa específica, como jogar xadrez ou resolver equações, a AGI superaria os humanos em quase todas as tarefas cognitivas.
Análise de Dados (Data Analysis)
É um processo de inspeção, limpeza, transformação e modelagem de dados com o objetivo de descobrir informações úteis, sugerir conclusões e apoiar a tomada de decisões.
Visualização de Dados (Data Visualization)
Aqui estamos falando do processo de criar visualizações e representações a partir dos dados, com o objetivo de contar histórias. Alguns pesquisadores definem a visualização de dados como a nova comunicação visual.
8 leis do Big Data
Segundo fontes do The Big Data Group existem 08 principais regras relacionadas ao Big Data:
#1 – Quanto mais rápido você analisar seus dados, maior será seu valor preditivo
As empresas estão migrando do processamento em lote para o tempo real para obter vantagem competitiva.
#2 – Mantenha uma cópia dos seus dados, não dúzias
Quanto mais você copia e move seus dados, menos confiável se torna (exemplo: crise bancária).
#3 – Use dados mais diversos, não apenas mais dados
Dados mais diversos levam a maiores insights. A combinação de várias origens de dados pode levar aos insights mais interessantes de todos.
#4 – Os dados têm um valor muito além do que você previu originalmente
Não jogue fora.
#5 – Planeje o crescimento exponencial
O número de fotos, e-mails e mensagens instantâneas, embora grandes, é limitado pelo número de pessoas. Os dados “sensor” em rede de telefones celulares, GPS e outros dispositivos são muito maiores.
#6 – Resolva um verdadeiro ponto de pintura
Não pense no Big Data como uma tecnologia nova e brilhante. Pense nos seus principais problemas de negócios e como resolvê-los analisando o Big Data.
#7 – Coloque dados e humanos juntos para obter o máximo de conhecimento
Mais dados sozinhos não são suficientes. Procure maneiras de ampliar o uso de dados em toda a sua organização.
#8 – Big Data está transformando os negócios da mesma maneira que TI
Aqueles que não conseguirem aproveitar as inúmeras fontes de dados internas e externas disponíveis serão ultrapassados pelos novos participantes.
Isso tudo é sobre inovação
Agora que você está pensando se realmente precisa do Big Data, saiba que não é algum tipo de tecnologia que vai trazer inovação para seu negócio, mas sim soluções criativas para problemas cotidianos, onde você pode utilizar o Big Data ou não. Lembre-se sempre que tecnologia que não entrega resultado não serve para nada.
De forma geral a cadeia de valor presente no Big Data consiste em:
- Coletar;
- Ingerir;
- Descobrir e limpar;
- Integrar;
- Análisar;
- Entregar;
Na imagem abaixo você poderá ver um gráfico que mostra a quantidade mundial de dados medido em Exabytes. De 2010 para 2015 a quantidade aumentou mais que 8 vezes e a tendência mundial é que essa quantidade aumente cada dia mais.
Fonte: Forbes
Já no estudo abaixo, você poderá ver uma análise sobre o mercado de Big Data focado em marketing, a curva azul crescendo exponencialmente mostra que essa tendência veio para ficar.
Tecnologias Real-Time Marketing, Artificial Intelligence for Marketing e Customer Journey também estão no gatilho da inovação, onde suas expectativas estão cada vez mais altas.
Outra análise interessante é referente a essas tecnologias estarem como um triângulo amarelo. Isso significa que a Gartner considera que estes itens chegarão ao seu auge nos próximos 10 anos.
Fonte: Gartner
Conclusão
Vou me despedir com três insights sobre Big Data revelados por Sandy Pentland, conhecido como o pai do Google Glass, encontrei essa referência no blog do Dave Feinleib.
- Big Data se trata de pessoas e não apenas dados;
- Os smartphones são a maior fonte de informações para o Big Data e se tornarão controles remotos universais;
- Big Data será cada dia mais sobre compreensão de padrões individuais (small data), fazendo isso estamos caminhando para construir uma tabela periódica do ser humano;
Agora que você já sabe o que Big Data representa para o mundo, e a quantidade de problemas que ele pode acarretar, continue acompanhando o blog e as tendências para não ficar para trás assinando a newsletter.
Marcus Oliveira – Co-fundador da PredictBox.io
Publicitário de formação que migrou para tecnologia logo após receber sua aprovação no trabalho de conclusão de curso. Hoje aposta todas suas fichas no mercado de dados, onde atua como pesquisador e engenheiro de machine learning. Empreendedor nato que não acredita em achismos e heurísticas, e por causa disso co-fundou a startup PredictBox.io, uma solução que analisa mais de 30 KPIs de negócios juntamente com consultoria de analytics para possibilitar ao gestor tomar decisões com base em dados reais sobre seus clientes.