Como os festivais de música usam Ciência de Dados para lucrar mais?

Imagine a seguinte situação: A nova versão do Rock in Rio ou Lollapalooza anuncia seu line-up. Suas duas bandas favoritas estão entre as atrações. Quando você abre a tabela de organização das bandas por dia vem a surpresa: As bandas vão ser apresentadas em dias diferentes!

O que antes você gastaria 400 reais em um ingresso para um dia de evento, agora terá que gastar o dobro para ver suas bandas prediletas. Já se viu nesta situação em algum festival? Será que foi uma infeliz coincidência? Puro azar? Não, posso garantir que não é nada disso! Tudo foi muito bem planejado.

Mais uma vez, Ciência de Dados foi aplicada para maximizar o resultado dos organizadores do festival. Acompanhe como isso é feito em mais um artigo do blog da Preditiva.

‍

O problema de negócio

Pense como se você fosse o dono do festival. Para aumentar o retorno de seu investimento, você tem algumas opções. Seguem algumas delas:

Diminuir os custos
Cobrar mais por ingressos
Aumentar a quantidade de ingressos vendidos por cliente

‍

Todas as opções têm prós e contras. A opção 1 pode afetar a qualidade do evento, e manchar a imagem da organização. A opção 2 pode afugentar muitos clientes, pois os ingressos de festivais já são caros por natureza. Sobra a opção 3. Como podemos fazer com que os clientes paguem mais ingressos em um festival? Uma possibilidade é aumentar a quantidade de bandas e, com isso, aumentar a quantidade de dias do festival.

No entanto, essa possibilidade abre um novo problema: Como organizar as bandas entre os dias do festival? Se eu colocar as bandas mais famosas em um único dia, é provável que os clientes não sintam a necessidade de comprar o segundo ingresso. Ok, então precisamos distribuir as bandas famosas entre os dias. Qual a melhor forma de fazer isso? Como saber quais bandas colocar no dia 1 e quais colocar no dia 2 ?

Existem técnicas de Ciência de Dados que podem ajudar.

A técnica

Esse problema de negócio pode ser resolvido com as técnicas chamadas “Recommender Systems”. Uma das técnicas mais famosas é a “Regra de Associação Apriori”, que funciona conforme explico a seguir.

Imagine que 6 possíveis clientes sejam entrevistados a respeito das bandas que gosta. Dessa pesquisa, foi possível criar a tabela abaixo:

‍

‍

Perceba que neste exemplo, somente 4 bandas foram sinalizadas como preferidas. A Regra de Associação Apriori tenta calcular a frequência (isto é, a probabilidade) de que uma ou mais bandas apareçam nas preferências dos clientes. Exemplo: Qual a frequência que a banda 1 aparece nas preferências? Ou ainda, será que os clientes que gostam da banda 1 também gostariam da banda 2? Se sim, com qual frequência?

Veja a tabela abaixo. Nela esquematizo algumas possibilidades entre as preferências dos clientes:

‍

A técnica “Apriori” considera essas possibilidades acima e calcula as probabilidades atreladas. Veja abaixo um exemplo:

‍

O suporte significa quantas vezes as bandas aparecem juntas entre as preferências dos clientes. Ex: A Banda 1 e Banda 2 apareceram juntas em 50% dos clientes pesquisados (clientes 1, 2 e 3 acima).

A confiança significa a chance de o cliente gostar de uma determinada banda, sempre que gostar de outra. Ex: Dos clientes que gostam da Banda 2, cerca de 75% também gostam da banda 4 (clientes 1, 3 e 5 acima).

Agora vem a “grande $acada”: Para separar as bandas entre os dias, basta deixar as combinações de bandas com maior confiança em dias separados! Uauuuu… rs.

Entendeu? Vamos rever com calma. Se uma combinação de banda tem confiança alta, significa que é grande a chance das pessoas gostarem das duas bandas. E se elas gostam das duas bandas, é melhor deixa-las em dias separados para que a organização do festival ganhe mais dinheiro com a venda de mais ingressos. Genial, não ?!?!

Bom, agora que entendemos a técnica, precisamos de dados (a matéria prima de toda análise). Como o festival poderia obter uma base de dados de preferências de usuários? Uma possibilidade seria comprar uma base de preferências de serviços de streaming. Por que você acha que o Spotify tem uma versão gratuita? Como a maioria dos serviços online gratuitos, nós disponibilizamos nossos dados em troca desses serviços. As empresas podem fazer o que quiserem com isso, inclusive vender para os analistas de dados do festival de música.

Neste artigo, vamos utilizar bases de dados gratuitas disponíveis online. Escolhemos as bases do Last.fm e Hype Machine. Acompanhe conosco os resultados da análise.

‍

Os resultados

Para rodar o algoritmo, utilizamos o software Knime Analytics Plataform. Poderíamos utilizar o Python, R, SAS e vários outros. Como em Ciência de Dados o importante é entender as técnicas e interpretar os resultados, a ferramenta é o de menos. Escolha aquela que você acha mais prática e segue a vida.

Para comparar os resultados da análise, vamos utilizar o line-up do Lollapalooza de 2018. Segue abaixo:

‍

Perceba que as principais bandas do festival (Red Hot Chili Peppers, Pearl Jam e The Killers) estão em dias separados. Rodando o algoritmo, como ficaria o percentual de confiança entre elas? Vejamos:

‍

‍

Olha que interessante: Das pessoas que curtem Pearl Jam, 36.3% (confiança) também curtem Red Hot. E dos que gostam do Red Hot, 27.5% (confiança) curtem The Killers. Faz sentido deixar essas bandas em dias juntos? Acho que não, certo?

Olha aí o resultado de outras bandas que participaram do festival.

‍

Veja agora que boa parte das bandas com baixa confiança ficaram no juntas no mesmo dia. Será uma coincidência ? rs…

‍

Kygo >> Imagine Dragons (Confiança de 18.2%)

‍

Claro que, embora a Ciência de Dados é uma grande aliada para se tomar decisões de negócio, em um evento como esse, nem sempre as decisões são baseadas em dados. Podem ocorrer problemas de agenda das bandas, por exemplo. Neste caso, teremos situações que fogem a regra, como a das bandas abaixo, que embora tenha alta confiança, ficaram juntas no mesmo dia.

Com isso o festival pode distribuir as bandas de forma a maximizar a quantidade de ingressos vendidos. Não é fantástico?

Esse tipo de técnica é usado constantemente em sites de varejo e serviços na internet. A Amazon, por exemplo, recomenda vários produtos de acordo com a preferência de compra anterior, ou seja, produtos de “confiança alta” entre si.

Já viu seu Spotify? Ele faz a mesma coisa aplicando variações desta técnica. Veja um exemplo:

‍

‍

Aparentemente, segundo os dados do Spotify, das pessoas que curtem U2, várias também gostam de REM, Simple Minds, The Police e Pretenders. E o Netflix? Mesma coisa. Um algoritmo de recomendação também é aplicado por lá.

Agora pense no seu negócio. Se você trabalha com Varejo e tem uma grande diversidade de produtos, quais produtos devem ser recomendados para os clientes? Ao aplicar esta técnica você pode descobrir tendências bem interessantes (e lucrativa$).

Tá esperando o que para aplicar esta técnica no seu negócio?

Até o próximo post :)

PS: Quer fazer análises como essa? Inscreva-se na Preditiva. Clique aqui e comece o quanto antes.

Fernando Itano

Bacharel em Estatística pelo IME-USP, Doutor em Inteligência Artificial pela POLI-USP. Possui mais de 19 anos de experiência desenvolvendo modelos para as áreas de Riscos, Jurídico, Prevenção a Fraudes, CRM e outros. Atuou também como Gerente de Ciência de Dados com foco em Inovação, MLOps e Governança de modelos.

Continue lendo...

Análise de Dados com Claude: Como Estruturar o Projeto Para Não Depender de Achismo

O que faz um Analista de BI na prática (e por que não é só dashboard)

MLOPS: a importância das operações de Machine Learning

Cientista de Dados: a profissão do presente que está definindo o futuro