Tutorial

Entenda o CRISP-DM, suas etapas e como de fato gerar valor com essa metodologia

POR
Vinícius Souza

Que análise de dados é fundamental para melhorar qualquer tipo de negócio, todo mundo sabe. O que muitos não sabem é que existem métodos para funcionar da forma adequada.

Se você está iniciando seus estudos em análise de dados e entendeu que análise de dados é basicamente construção de Dashboards em Power BI, você está vendo só uma parte de um oceano de oportunidades MUITO maior (e melhor).

Neste post, vou mostrar como de fato gerar valor com dados usando uma metodologia consagrada e com várias melhorias e dicas trazidas por nosso time de professores da Preditiva.

O que você vai ler aqui, acredite, não vai ler em mais nenhum lugar com o mesmo aprofundamento. Então já pega um café, seu pão de queijo e bora dominar esse negócio.

O que é o CRISP-DM ?

Uma metodologia utilizada (ou que deveria ser utilizada) por profissionais de dados para criar "projetos" de dados que tenham maior chance de sucesso. Sim, pois muitos projetos de dados falham…

  • Quantas vezes você fez uma análise que não surtiu efeito e não deu em nada?
  • Quantas vezes você fez um dashboard bonitão que praticamente ninguém olhou?
  • Quantas vezes você apresentou um estudo que recebeu um agradecimento mas seu gestor ou cliente nem colocou o plano de ação para rodar?

Estes são alguns exemplos de projetos que falham. Você gasta seu tempo, a empresa paga seu salário e, o resultado que é bom? Zero! 🙁

Por isso, ao longo do tempo foram se consolidando melhores práticas no setor para tentar minimizar os problemas que podem surgir em um projeto de dados, que podem ser análises exploratórias, dashboards ou modelos de Machine Learning e IA.

Uma metodologia que consolida essas melhores práticas é a tal da CRISP-DM, que vem do inglês Cross Industry Standard Process for Data Mining.

Ela foi criada há mais de 20 anos atrás e ainda é utilizada até hoje, naturalmente com vários ajustes e atualizações.

Neste post vamos falar do CRISP-DM com a pitada da Preditiva, ou seja, sem enrolação, focada em negócios e geração de valor com dados. Bora lá?

Quais as etapas do CRISP-DM?

O CRISP-DM tem 6 grandes passos. São eles:

  • Etapa 1: Entendimento do Negócio
  • Etapa 2: Entendimento dos dados
  • Etapa 3: Preparação dos dados
  • Etapa 4: Desenvolvimento do estudo ou análise
  • Etapa 5: Validação
  • Etapa 6: Implantação do projeto e acompanhamento

As etapas não são lineares e muitas vezes dentro de um projeto de dados você vai flutuar entre as etapas indo e voltando à medida que for necessário e o tempo for suficiente.

Veja uma representação clássica dessa metodologia:

Vamos falar no detalhes de cada uma das etapas a seguir.

A etapa 1: Entendimento do negócio

Esta talvez seja a etapa mais importante de toda a metodologia. Sem ela, a chance de "dar ruim" em seu projeto é ENORME. Aqui precisamos discutir:

  • O objetivo do projeto
  • As premissas
  • Os riscos envolvidos
  • Custo x Benefício
  • Critérios de Sucesso
  • Planejamento do projeto
  • Início da documentação

Veja como funciona cada uma delas:

As 6 etapas do CRISP-DM

a) Objetivo do projeto

O que deve ser feito ?

Antes de começar qualquer projeto de dados temos que ter muita clareza do que deve ser resolvido. Queremos aumentar as vendas? Descobrir as causas do Churn de clientes? Entender que tipo de cliente é mais propenso à compra? O objetivo do trabalho deve ser muito claro!

Como realizar?

Muitos analistas somente entendem o objetivo geral e já saem construindo queries e criando dashboards. Grande erro! Nesta etapa, sempre tenha as respostas para as seguintes perguntas: 

  • Qual o objetivo deste trabalho? 
  • O que queremos conhecer? 
  • O que queremos mudar na área com esse projeto? 
  • Já existe algo realizado ou em andamento feito por alguém? Quais os resultados?
  • Supondo que consigamos atingir o objetivo, o que vem depois? Como este trabalho será usado?

Dicas da Preditiva

  • Faça várias perguntas sobre o negócio para seu cliente. Marque quantas reuniões forem necessárias, mas o entendimento do processo é fundamental antes de começar. 
  • Sempre ajude o seu cliente a priorizar os projetos. Isso envolve questioná-lo sobre o potencial de resultado e de como esse resultado será usado na prática. 
  • Se o uso do resultado de seu projeto de análise de dados não estiver claro, é uma boa ideia abandoná-lo e deixar no roadmap para uma próxima oportunidade.

b) Premissas

O que deve ser feito ?

Uma premissa é a assunção de alguma verdade. Exemplo: Vamos assumir que essa amostra extraída dos dados seja aleatória e que não temos vieses de seleção. Nesta etapa precisamos pensar em todas as premissas que seu trabalho irá assumir.

Como realizar?

Na entrevista com seu cliente já se pode entender algumas delas. Outras premissas são descobertas na etapa de Entendimento dos Dados, pois nem sempre o que o cliente conhece é o que de fato acontece nos dados extraídos para análise.

Dicas da Preditiva

  • Após a etapa de Análise Exploratória dos Dados muitas vezes temos mais clareza das premissas que devem ser assumidas. Sempre volte para a sua “Lista de Premissas” à medida que vai conhecendo melhor sua base de dados. 
  • As premissas devem ser informadas para seu cliente desde o início. Isso é muito importante para que o cliente tenha clareza se o resultado da análise será realmente útil para ele. Infelizmente, vários trabalhos de análise são “invalidados” em uma reunião com o gestor ou cliente da análise pelo simples fato da premissa não ter sido informada antes do projeto iniciar. Exemplo: “Nossa, eu não sabia que você tinha pego dados do sistema XPTO. Esse sistema está cheio de problemas. Como vamos confiar em todas as análises que fez?”

c) Os riscos envolvidos

O que deve ser feito ?

Todo processo tem risco. Não devemos evitar o risco, mas sim controlá-lo. Portanto, nesta etapa precisamos ter clareza de quais riscos nosso projeto de dados está exposto e de como mitigá-lo (diminuí-lo), se possível.

Como realizar?

Ao entender bem as premissas e objetivos, os riscos tendem a aparecer naturalmente. Exemplo de riscos comuns em projetos de dados: 

  • Os dados da análise não estão estruturados em um repositório de dados validado, como o DW ou Data Lake. Desta forma corremos o risco de juntar os dados de forma incorreta devido ao trabalho manual. Além disso, o trabalho levará mais tempo. 
  • As áreas de negócio não têm familiaridade com interpretação de dados ou uso de ferramentas analíticas, fazendo com que o resultado do projeto de análise possa ser mal utilizado, produzindo resultados ruins. 
  • Conformidade com a LGPD: Todos os nossos projetos de dados devem estar em conformidade com os requisitos da lei. Sempre verifique isso com as áreas de Governança e Privacidade da empresa. 
  • O sistema ou infraestrutura de dados anda congestionada. Com isso a coleta dos dados pode demorar mais do que o previsto.

Dicas da Preditiva

Para entender bem os riscos envolvidos é interessante realizar uma análise SWOT* do processo. Uma das etapas deste tipo de análise é justamente pensar riscos internos e externos que podem ser pontos de atenção para o projeto de análise de dados.

Análise SWOT

d) Custo x Benefício

O que deve ser feito ?

Todo projeto tem um custo. Nem que esse custo seja o seu tempo ou da equipe. Nesta etapa da metodologia devemos ter o máximo de clareza de qual o custo que estamos lidando. Porém, o custo muitas vezes é um investimento de um benefício muito maior. Portanto, devemos levantar os custos e benefícios esperados do projeto de dados para avaliar se vale a pena continuar ou se deixamos esse projeto para uma próxima oportunidade.

Como realizar?

Para alcançar o objetivo do projeto precisamos coletar os dados necessários. Desta forma, algumas perguntas são bem naturais nesta etapa: 

  • Onde esses dados estão? Estão disponíveis e atualizados?
  • Se não, qual o custo para começar a coletá-los?
  • São dados que precisam ser adquiridos de um fornecedor externo? Se sim, qual o custo?
  • Qual o benefício esperado de seu uso?

Dicas da Preditiva

Construa uma planilha para documentar essa pesquisa. Depois priorize os dados de acordo com a avaliação de custo x benefício.

Veja um exemplo:

Etapas para uma análise de custo x benefício

e) Critérios de Sucesso

O que deve ser feito ?

Muitas vezes quando analisamos uma base dados temos a impressão que podemos investigar infinitas possibilidades. Isso é verdade! Por isso precisamos ser objetivos e focar no que realmente importa. Segundo o CRISP-DM, a melhor forma de fazer isso é definir um claro Critério de Sucesso para o projeto. Ele funciona como um tipo de “critério de parada”. Ou seja, quando chegarmos a esse objetivo podemos estar satisfeitos com o projeto e encerrá-lo.

Como realizar?

Bons critérios de sucesso são criados levando em consideração as métricas do negócio ou as próprias métricas obtidas do modelo estatístico desenvolvido.

Exemplos de critérios de sucesso: 

  • Diminuição esperada de 10% na taxa de churn de clientes (Métrica de Negócio)
  • Melhoria do KS do modelo de crédito para um patamar de pelo menos 30% (Métrica de Modelos)
  • Mitigar todos os riscos levantados pelo time de Controles Internos (Métrica Regulatória);

Dicas da Preditiva

  • Busque referências nas áreas de negócio de bons indicadores e/ou trabalhos passados. O que funcionou bem e o que não funcionou? Se o trabalho anterior melhorou 5% do resultado, talvez uma expectativa de aumento de 50% no seu projeto seja irrealista. 
  • Se o seu projeto tem como objetivo melhorar um produto de dados anterior (ex: um modelo estatístico que é ruim), leia a documentação (se existir) e verifique o que funcionou anteriormente que vale a pena continuar no seu projeto.

f) Planejamento do projeto

O que deve ser feito ?

Após coletar todas essas informações você precisar criar um cronograma contendo cada etapa do projeto. O CRISP-DM tem 5 etapas adicionais após a etapa de conhecimento do negócio.

Como realizar?

O cronograma deve conter os tempos em dias estimados para cada etapa e tarefa do projeto. Insira também as reuniões esperadas com o cliente para reporte do andamento do projeto.

Dicas da Preditiva

  • O cronograma deve ser aprovado pelo cliente. Evite que essa aprovação seja feita de forma verbal. Peça para o cliente confirmar por e-mail e só inicie as próximas etapas após o “de acordo” formal do cliente. 
  • Marque as reuniões com o cliente logo após a aprovação do cronograma, assim a agenda já fica bloqueada. O ideal é realizar uma reunião com o cliente semanalmente. Se não for possível, agende ao menos quinzenalmente.
  • O tempo de conclusão de projetos depende de fatores como: Facilidade de acesso aos dados, disponibilidade do cliente, critérios de sucesso claros, tipo de risco envolvido (ex: indisponibilidade sistêmica), sofisticação da técnica de estatística utilizada, entre outros. Portanto, sempre dê uma estimativa otimista (supondo que tudo funcione) e uma pessimista (supondo o pior cenário).

Veja um exemplo de planejamento de um projeto de dados:

Dicas adicionais:

  • As três etapas iniciais geralmente são as mais demoradas (cerca de 60% do projeto). Não subestime o prazo dessas etapas. 
  • O cronograma acima foi planejado considerando os prazos pessimistas. Fica a seu critério criar outra versão com os prazos otimistas. 
  • Sempre informe seu cliente de desvios em relação aos prazos combinados. O que pega mal não é o atraso, mas a falta de aviso para o cliente que está esperando uma informação. Não fique com receio em dar notícias ruins!

g) Início da documentação

O que deve ser feito ?

Um projeto sem documentação tem grandes chances de não durar por muito tempo. O motivo é que a documentação é essencial para continuidade em caso de mudanças nos times e escopo das áreas de negócio. Imagine você ter que fazer uma nova versão de um Dashboard. Como saberá como o atual funciona sem documentação? Nesta etapa devemos consolidar todo o conhecimento obtido em um documento de fácil acesso para você, time e cliente do projeto.

Como realizar?

A documentação envolve clareza na escrita e organização de seus tópicos. Seguem abaixo os principais tópicos a serem descritos em um documento de projetos de dados: 

  • Todos os critérios e conhecimentos obtidos na etapa de “Entendimento de Negócio”;
  • Incluindo as premissas, riscos mapeados, custos x benefícios e critérios de sucesso. 
  • Cronograma do projeto; 
  • Análise exploratória e transformações de dados realizadas na base (filtros, correções, padronizações, tratamento de valores faltantes etc); 
  • Estudo/modelo desenvolvido e suas conclusões; 
  • Plano de implantação e acompanhamento;

Dicas da Preditiva

  • A documentação é parte das melhores práticas da metodologia de Gestão do Conhecimento. Vale a pena conhecer mais.
  • Crie um glossário dos termos de negócio e inclua na documentação.
  • Sempre mantenha um atualizado histórico de versões do documento.
  • Sempre documente as aprovações e alinhamentos com o cliente (guarde as ATA’s de reunião na pasta do projeto). Acredite, isso pode te evitar muita dor de cabeça!

Ufa! E aqui acabamos a primeira etapa do CRISP-DM.

Achou muita coisa? rsrs…Pois é.

Não tem como correr. Para um projeto dar certo, é preciso uma boa noção de seus objetivos e não cair em ciladas comuns que documentamos para você neste super post.

Mas claro, ainda temos muito o que falar para você dominar os projetos de dados.

Para isso aqui não virar um livro, vou separar as próximas etapas em outros posts.

Continue acompanhando nosso blog. Inscreva-se em nossa newsletter para ser notificado quando os próximos posts forem publicados. Tem MUUITAAA coisa legal e exclusiva que queremos compartilhar com você.

Ah, e claro, aluno da Preditiva já tem acesso imediato a esse conteúdo em vídeo, ainda mais detalhado e pronto para utilização em nossa plataforma.

Não é aluno? QUEEEE? Então inscreva-se hoje e aprenda a analisar dados do jeito certo, sem enrolação. Clique aqui.

Nos vemos no próximo post. :)

Vinícius Souza
Bacharel em Matemática Aplicada pelo IME-USP, possui mais de 17 anos de experiência no mercado financeiro e no de serviços de Atendimento ao Cliente. Criou soluções em Analytics nas mais diversas áreas, entre elas: Auditoria Interna, Compliance, Risco de Crédito e Cobrança. Atuou como Head de Ciência de Dados em uma das maiores Fintechs do Brasil.
Continue lendo...
Deep Learning: o que é e para que serve
LER MAIS
Inferência na Análise de Dados
LER MAIS
Desafios atuais da Análise de Dados
LER MAIS
O futuro do Mercado de Trabalho com a Análise de Dados
LER MAIS
Newsletter Preditiva
Inscreva-se e fique por dentro de tudo que acontece no mercado de análise de dados
Obrigado! Aguarde nossas notícias no e-mail escolhido.
Ops. Alguma coisa deu errado.