Falta metodologia de trabalho para os cientistas de dados

Como resolver os problemas dos negócios ainda é uma dúvida para quem atua com Data Science

Marco Cavallo

31/07/2019

Sabe-se claramente que os profissionais que trabalham nos domínios do Data Science resolvem problemas e respondem a questões relacionadas aos negócios por meio da análise de dados, construindo modelos para prever resultados ou descobrir padrões subjacentes. Tudo isso para obter insights que levem a ações para melhorar os resultados futuros das empresas por meio não só dos cientistas de dados, mas também das equipes de negócios.

 

E as ferramentas e tecnologias que estes profissionais utilizam estão evoluindo rapidamente, aprimorando suas habilidades para atingir suas metas. Mesmo em um crescimento tão rápido, ainda há um problema crônico a ser solucionado que acaba inibindo o sucesso do Data Science em muitas organizações: a compreensão sobre como resolver estes problemas dos negócios.

 

Mesmo com o grande volume de analistas de negócios utilizando Data Science, muitas vezes as soluções encontradas não conseguem resolver adequadamente o problema em questão ou agregar o valor necessário ao produto/serviço. Nestes casos, a lacuna está exatamente na falha em entender e, depois, seguir uma metodologia adequada para chegar a esta solução. Por isso, é importante estabelecer uma metodologia de trabalho que, inicialmente, esteja em linha com as motivações dos negócios e as oportunidades que o Data Science pode prover para as organizações, conforme o diagrama abaixo mostra:

 

Após uma profunda compreensão sobre as motivações e necessidades dos negócios, os profissionais (não só os cientistas de dados) devem estabelecer os passos estratégicos de sua metodologia para chegarem a uma solução correta. Este passo da metodologia, que deve atuar independentemente de tecnologias ou ferramentas específicas, deve fornecer uma estrutura para prosseguir com os métodos e processos que serão usados para obter as respostas e, por fim, os resultados almejados. O diagrama a seguir descreve uma proposta com 10 estágios que representam um processo iterativo que leva da concepção da solução a sua implantação, feedback e refinamento:

 

 

Abaixo, segue uma breve descrição sobre como cada profissional deve transcorrer em cada uma das etapas estratégicas da metodologia proposta:

 

  • Compreensão efetiva dos negócios: cada projeto, independentemente de seu tamanho, deve começar com a compreensão do negócio, que estabelece as bases para uma resolução bem-sucedida dos problemas encontrados. Os líderes de negócios, não só os cientistas de dados, desempenham um papel fundamental nesse estágio, definindo o problema, os objetivos e os requisitos da solução a partir de uma perspectiva de negócios. E, acredite ou não, mesmo com as demais etapas ainda por vir, esta primeira fase é a mais difícil.

 

  • Abordagem analítica: apenas após definir claramente qual o problema de negócios que necessita de uma solução o profissional poderá definir a abordagem analítica para resolvê-lo. Para tal, há a necessidade de traduzir o problema em um contexto estatístico e de Machine Learning para que seja possível identificar as técnicas mais adequadas para alcançar os resultados desejados.

“Cada projeto deve começar com a compreensão do negócio, que estabelece as bases para uma resolução bem-sucedida dos problemas.”

 

  • Requerimentos de dados: a escolha da abordagem analítica determina os requisitos de dados, pois quaisquer métodos analíticos a serem selecionados irão exigir conteúdos, formatos e representações de dados específicos.

 

  • Coleta de dados: ao identificar e reunir recursos de dados, tanto estruturados, não estruturados e semi-estruturados, relevantes para o domínio do problema, o profissional, ao encontrar quaisquer lacunas durante o processo de coleta de dados, poderá precisar revisar os requisitos de dados ou até mesmo coletar mais dados.

 

  • Compreensão dos dados: estatísticas descritivas e técnicas de visualização certamente irão auxiliar os profissionais a entender o conteúdo dos dados, avaliar sua qualidade e formular os insights para preencher possíveis lacunas no processo de entendimento. Talvez haja a necessidade de revisitar o processo de coleta dos dados.

 

  • Preparação dos dados: o estágio de preparação de dados inclui todas as atividades usadas para construir o conjunto de dados que será usado no estágio de modelagem, tais como limpeza de dados, a combinação dos dados de múltiplas fontes e a transformação dos dados em variáveis ​​mais úteis. O estágio de preparação de dados é o mais demorado. No entanto, este tempo pode ser reduzido significativamente se os recursos forem bem gerenciados, integrados e claros em uma perspectiva analítica, e não apenas de armazenamento.

 

  • Modelagem: após a preparação da primeira versão do conjunto de dados, os profissionais podem utilizar dados históricos nos quais o resultado do interesse é conhecido para desenvolver modelos preditivos ou descritivos em suas abordagens analíticas, sendo este o processo altamente iterativo.

 

  • Avaliação: avaliar a qualidade do modelo e verificar se ele aborda o problema de negócios de maneira completa e adequada é vital para qualquer projeto de Data Science. Isso exige a computação de diversas métricas de diagnóstico, por meio da utilização de conjuntos de testes para a formulação de um modelo preditivo.

 

  • Implantação: após o desenvolvimento e a aprovação de um modelo satisfatório, ele é implantado em ambiente de produção ou em um ambiente de teste comparável. Essa implantação deve ser inicialmente limitada para permitir a avaliação de seu desempenho, além de envolver diferentes grupos profissionais, habilidades e tecnologias.

 

  • Feedback: ao coletar os resultados do modelo implementado, a organização obtém o feedback sobre o desempenho do mesmo, observando como isso afeta seu ambiente de implementação. A análise desse feedback permite o refinamento do modelo, aumentando sua precisão e, portanto, sua utilidade.

 

O fluxo do processo estratégico desta metodologia ilustra a natureza iterativa do processo de solução de problemas. Os modelos não devem ser criados uma vez, depois implantados e mantidos inalterados. Em vez disso, por meio de feedback, refinamento e redistribuição, um modelo pode adaptar-se continuamente às condições mercadológicas, permitindo que este forneça valor à organização enquanto a solução elaborada para o problema identificado for necessária.

 

Por fim, é importante compreender que, em uma época onde há dados de sobra e recursos escassos, o Data Science passa a ser uma habilidade necessária e pertinente para todos os profissionais, não só os cientistas de dados, que querem se destacar na Era Digital de forma estratégica.