Por que data science não se limita somente aos dados

Demanda por profissionais está crescendo, mas apenas ter habilidades técnicas não basta

Marco Cavallo

16/07/2019

A Era Digital inseriu a sociedade em um cenário cada vez mais conectado. Há uma aplicação crescente de diversas tecnologias, o que dá origem a um volume intenso de dados para as organizações. Neste cenário, a interpretação das informações é fundamental para extrair o valor necessário para os negócios, mas as informações obtidas não têm sentido algum se você não puder transformá-las em insights. É aqui que o Data Science entra em ação para salvar o dia.

 

Não é novidades que a demanda por profissionais com habilidades para lidar com tais volumes de dados está crescendo, e esta tarefa não se limita a saber selecionar as ferramentas certas ou estar familiarizado com os termos e linguagens técnicas. Muitas vezes, estes profissionais devem deter um conhecimento mais amplo. O diagrama abaixo mostra as diferentes dimensões necessárias para que um profissional em Data Science seja eficiente:

 

 

 

As organizações da Era Digital começam a mensurar sua capacidade competitiva pelo grau de sucesso com que aplicam as ferramentas de Analytics aos seus conjuntos de dados para impulsionar a inovação. Neste cenário, a capacidade do Data Scientist deve transcender questões meramente técnicas e observar todas as questões corporativas e mercadológicas, como as necessidades dos clientes e as capacidades processuais da organização.

 

Neste cenário, uma equipe de Data Science eficiente pode fazer toda a diferença para a competitividade da organização, de forma que a chamada Experiência Substantiva, aquelas que não estão relacionadas com as competências técnicas e sim com as capacidades mais humanas e criativas, tem se tornado uma capacidade extremamente importante, porém ainda latente, nestas equipes. Para que estas equipes saibam fazer avaliações mais precisas e amplamente baseadas em dados, é importante que tenham em mente os quatro tópicos abaixo:

 

  • Avaliação da salubridade do negócio: um dos principais resultados das análises substantivas é avaliar a saúde de um produto/serviço, ou até mesmo de uma organização em sua totalidade. Uma vez definidas as métricas e metas para o sucesso de um produto/serviço, deve-se monitorar estas métricas para que se possa garantir que as estratégias adotadas são as corretas para o atingimento das metas estabelecidas. Taticamente, esse trabalho consiste na identificação de outliers, compreendendo detalhadamente os fatores que impulsionam as mudanças nas métricas, traduzindo-os em relatórios, dashboards e pesquisas para visualização dos demais departamentos das organizações.

 

  • Entrega dos produtos corretos ao mercado: outro papel muito importante do Data Science é garantir que os produtos/serviços e suas características sejam desenhados corretamente para serem oferecidos ou reposicionados no mercado. Ajudar a projetar experimentos e pesquisas, identificar hipóteses baseadas em dados sobre fenômenos mercadológicos e orientar equipes de design na otimização constante de produtos por meio de insights baseados em dados reais tem se tornado parte essencial do Data Science para as organizações.

 

  • Forecasting: outro importante papel do Data Science que tem emergido é a construção de modelos e sistemas de previsibilidade mercadológica, muitas vezes utilizando ferramentas de Inteligência Artificial e/ou Machine Learning, auxiliando as organizações a prever expectativas e tendências futuras para um melhor design de seus produtos e alterações necessárias ao negócio.

 

  • Definição de roadmaps estratégicos para os produtos/serviços: a exploração e análise mais profundas da jornada dos clientes, assim como dos fenômenos mercadológicos geram insights acionáveis que, por fim, resultam na definição do roteiro completo das estratégias para os produtos e serviços das organizações, ações estas que, quando orientada por dados, é um dos itens mais importantes que o Data Science pode prover às organizações.

 

Tendo em vista os itens acima descritos, o mercado atual tem demandando duas categorias de cientistas de dados:

 

  • Analistas de produtos, cuja função é fornecer históricos e cenários baseados em dados que defendam mudanças nos produtos ou nas estratégias, concentrando-se em estabelecer metas, criar roadmaps e estratégias para os produtos/serviços.

 

  • Desenvolvedores de algoritmos, cuja função é incorporar características orientados a dados nos produtos/serviços, como por exemplo a otimização de recomendações ou em resultados de pesquisas, alavancando os dados disponíveis para melhorar o desempenho dos produtos/serviços em busca de um objetivo final específico, geralmente prevendo resultados ou construindo modelos de produção mais eficientes.

 

As equipes de Data Science precisam de generalistas, não de especialistas

 

Na obra A Riqueza das Nações, Adam Smith demonstra claramente como a divisão do trabalho tornou-se a principal fonte de ganhos de produtividade por meio do exemplo de processo industrial em uma fábrica de alfinetes. Um homem trabalhando sozinho encontraria dificuldade para produzir vinte alfinetes perfeitos em um dia, já um grupo de dez homens, encarregados em diferentes tarefas (esticar o arame, endireitá-lo, cortá-lo e afiá-lo para uni-lo a uma cabeça), seriam capazes de produzir mais de 48 mil alfinetes por dia.

 

Com a especialização orientada para a função, cada trabalhador se torna altamente qualificado em uma tarefa limitada, o que conduz às eficiências de processos dentro das indústrias. O resultado obtido por trabalhador aumenta significativamente e a fábrica se torna extremamente eficiente na produção de alfinetes.

 

A divisão de trabalho por função está tão enraizada nas organizações que, até hoje,  organizam suas equipes desta forma, e o Data Science não é uma exceção. Criar um recurso de negócios algorítmico de ponta requer diferentes funções e, por isso, as organizações geralmente criam equipes de especialistas: cientistas de pesquisa, engenheiros de dados, engenheiros de Machine Learning, cientistas de inferência causal e assim por diante, sendo o trabalho dos especialistas normalmente coordenado por um gerente de produto, caminhando entre as funções de forma semelhante às da fábrica de alfinetes: uma pessoa obtém os dados, outra modela, um terceiro implementa, um quarto mede, e assim por diante.

 

O problema neste cenário é que as empresas estão utilizando as equipes de Data Science meramente para ganhos de produtividade, o que normalmente ocorre quando a organização já sabe o que está produzindo e apenas busca eficiências incrementais. O objetivo das linhas de montagem é a execução, onde os requisitos descrevam todos os aspectos do produto e seu comportamento mercadológico e, logo, o papel dos trabalhadores é tão somente executar esses requisitos da maneira mais eficiente possível. Porém, o objetivo da ciência de dados não é a execução.

 

O principal objetivo do Data Science é aprender e desenvolver novas capacidades e transformações profundas nos negócios, tais como produtos e serviços algorítmicos, como sistemas de recomendações, mecanismos de engajamento, classificação de preferências, sistemas de design, otimizações logísticas, detecção sazonal de tendências, entre outras itens que, como princípio básico, não podem ser projetados antecipadamente. Estes padrões precisam ser aprendidos, pois são novos recursos com incertezas inerentes.

 

Coeficientes, modelos, hiperparâmetros, todos os elementos que as organizações precisam atualmente devem ser aprendidos através da experimentação, tentativa e erro e iteração, sendo esta a principal característica do Data Science: o desenvolvimento acontece à medida que a organização avança, não antes. Mas quando o produto/serviço ainda está em seu estágio de evolução e o objetivo é o aprendizado, a especialização nas funções pode dificultar os objetivos das corporações de diversas maneiras, tais como:

 

  • Aumentar os custos de coordenação: são custos que se acumulam no tempo gasto na comunicação, discussão, justificação e priorização do trabalho a ser feito, de forma que tais custos escalam de forma extremamente linear conforme o número de pessoas envolvidas.

 

  • Exceder cronogramas: o que pode gerar altos custos, uma vez que os cronograma costumam ser medidos em dias, semanas ou até meses, e cronogramas de especialistas funcionais são difíceis de alinhar, pois cada especialista deve ser alocado a várias iniciativas, e mesmo quando alinhados com as mudanças, o próprio trabalho real também precisa ser programado no contexto de vários outros projetos, competindo pelo tempo dos especialistas. Trabalhos como alterações de código ou pesquisas, que exigem apenas algumas horas ou dias para serem concluídas, mas ainda podem ser interrompidos por muito mais tempo antes que os recursos estejam disponíveis. Neste contexto, tanto a iteração como o aprendizado definham.

 

  • Estreitar contextos: pois a divisão do trabalho especializado pode limitar artificialmente o aprendizado, recompensando os profissionais por permanecerem no curso do trabalho pré-definido.

 

Se uma organização quer incentivar o aprendizado e a interação dentro da sua equipe de Data Science, os profissionais deste departamento precisam se tornar mais generalistas, com responsabilidades mais amplas e agnósticas em relação às funções técnicas. Ou seja, organizados para que eles sejam estimulados a aprender ao máximo. Isso significa contratar cientistas de dados “completos” (generalistas), capazes de executar diversas funções: da concepção à modelagem, ao alinhamento com as necessidades dos negócios, implementação e medição. Dessa forma, os incentivos estarão mais relacionados com os ganhos de aprendizado ao invés da eficiência, ou seja, cada generalista estará completamente dedicado a uma capacidade de negócios, aumentando a escala e o aprendizado.

 

O generalista movimenta-se de forma fluida entre funções, ampliando o fluxo de dados para adicionar mais dados, testando novos recursos de modelagem, implantando novas versões para produção para medição causal e repetindo etapas tão rapidamente quanto novas ideias chegam a ela, e tudo altamente alinhado com os objetivos de negócios das organizações. Naturalmente, um generalista executa as diferentes funções em sequência, e não em paralelo, no entanto, o trabalho normalmente leva apenas uma fração do tempo de espera necessário para que outro recurso seja disponibilizado. Então, o tempo de iteração diminui e, consequentemente, com menos pessoas para serem geridas, os custos de coordenação caem substancialmente.

 

Em contraste com o que é amplamente praticado no mercado atualmente, os papéis generalistas fornecem todos os fatores que alavancam a satisfação no trabalho: autonomia, maestria e propósito. Autonomia em que os profissionais não são dependentes de outra pessoa para seu sucesso, maestria em que eles conhecem as capacidades dos negócios em sua totalidade, e com o propósito de que eles tenham uma conexão direta com o impacto nos negócios que estão fazendo. Quando se consegue que as pessoas sejam apaixonadas por seu trabalho e possam gerar um grande impacto em seus negócios, o resto se encaixará naturalmente.