Big and Smart Data
top of page

Big and Smart Data


Ce module présente quelques éléments pour comprendre les bases de fonctionnement de l'analyse de données et en particulier le machine learning appliqué à des problématiques de digital business.


L'ensemble des ressources sont disponibles dans le dossier partagé suivant :



Le dépôt des projets est a effectuer dans le dossier suivant :



1-Futur de la société numérique


Une introduction sur les défis de notre société digitale. Un point sur les avancées les plus disruptives dans le domaine des technologies numérique. Nanorobots, drones, ordinateur quantique, intelligence artificielle, interfaces homme-machine, deep fake, etc.



2- Introduction à la donnée : Big, Smart, Open Data


Étude de cas Netflix


Netflix est une entreprise américaine de films et de séries télévisées en flux continu (VAD). L’entreprise est implantée à travers le monde. L’entreprise compte plus de 183 millions d'abonnés à son offre. Son chiffre d’affaire a atteint 5,8 milliards de dollars (5,34 milliards d'euros au premier trimestre 2020. Ce chiffre est donc en augmentation de 28 % sur un an. L’abonnement Netflix peut être interrompu à tout moment par les utilisateurs. Un nouvel utilisateur peut tester Netflix gratuitement pendant une durée d’un mois.

Depuis 2012, Netflix achète les droits de première diffusion de séries à l'international et les diffuse ensuite le lendemain de leur diffusion dans leur pays d'origine. Ces séries sont présentées comme des séries originales Netflix dans les pays où elles sont distribuées. Cependant, dans leur pays d'origine et dans les pays où leurs droits ont déjà été achetés par d'autres chaines de télévisions, ces séries arrivent sur Netflix après leur diffusion à la télévision ou leur sortie vidéo ; elles ne sont donc pas présentées comme des « séries originales ». Netflix diffuse également des films, des documentaires, des stand-ups et des talk-shows. De plus, Netflix investit dans la production de séries qui sont ensuite diffusées sur leur plateforme. Par exemple, la série « House of Cards » originalement produite en Grande Bretagne a été produite (avec un coût approximatif de 100 millions de dollars) et diffusée par Netflix aux États-Unis.

Netflix a organisé entre 2006 et 2009 un concours afin de créer le meilleur algorithme de filtrage collaboratif. Celui-ci avait pour objectif de prédire au mieux le vote des utilisateurs dans leurs choix de films (nombre d’étoiles). Le gagnant du concours a amélioré de 10,06 % l’algorithme de Netflix dans la prédiction des évaluations.

Dans certains pays, notamment en France et en Belgique, Netflix est critiqué pour son manque de choix dans le catalogue par rapport au catalogue américain beaucoup plus riche. Elle est également critiquée en France à cause de l'âge des films : en effet, les plus récents auraient au moins 3 ans dû à la règlementation. Le manque de cohérence dans l'ajout de films est également pointé du doigt.

Netflix intègre un système de recommandation qui propose des films aux utilisateurs en se basant sur leurs comportements sur la plateforme.

1 Quelles données comportementales d’un utilisateur Netflix peuvent être des indicateurs de satisfaction et d’insatisfaction du client d’un film ? Expliquez pourquoi.

2 Netflix propose aux utilisateurs de noter les films ou les séries vues sur 5 étoiles (ou, plus récemment, « aime » et « n’aime pas »). En quoi est-ce utile ? À votre avis, pourquoi le système de « likes » s’est montré plus efficace (d’après le nombre de participants) que le système par étoiles ?

3 Quelles données et variables comportementales d’un utilisateur Netflix peuvent aider à dresser un profil utilisateur pour améliorer le système de recommandation ?


4 Netflix associe un grand nombre de tags à chaque film et à chaque série avant de les mettre en ligne. En quoi est-ce utile ?


5 Netflix sauvegarde le jour et l’heure auxquels l’utilisateur a consulté une vidéo ainsi que les pauses effectuées pendant la diffusion. En quoi cette information peut-elle s’avérer utile ?


6 Netflix recommande une nouvelle vidéo (ou le prochain épisode de la série) à l’utilisateur dès que le générique final est commencé. Pourquoi ?

7 En quoi un système de recommandation est-il important pour Netflix ?


8 Proposez une méthodologie de data science permettant de détecter le risque de churn. Indiquez les sources de données, les variables et les approches statistiques pouvant être utilisées. Justifiez vos choix.

9 Netflix a besoin d’une licence afin de diffuser un film ou une saison d’une série.

a. Tous les films, ainsi que toutes les séries et même toutes les saisons d’une série, ne sont pas disponibles sur Netflix. Pour quelles raisons ?


b. Les nouveautés et certains films qui ont eu un succès au cinéma ne sont pas disponibles sur Netflix. Pourquoi ?

c. Quelles données comportementales des utilisateurs peuvent être utiles à Netflix pour effectuer le choix des séries dans lesquelles investir ?

d. Quelles données comportementales des utilisateurs peuvent être utiles à Netflix pour le choix de prolongation ou non d’une série ?


e. Quelles données issues des utilisateurs peuvent être utiles à Netflix pour le choix des films ?


f. Le directeur de communication Netflix a indiqué « Il y a 33 millions de versions différentes de Netflix. » Comment est-ce possible ?


g. Netflix monitore les sites de piratage et de streaming. En quoi est-ce utile ?

h. Proposez une méthodologie de data science permettant de personnaliser la recherche sur Netflix. Indiquez les sources de données, les variables et algorithmes pouvant être utilisés.

10 Netflix a décidé de produire une série. La production a un coût important. Pour maximiser la probabilité de succès, Netflix s’appuie sur les données utilisateurs pour les choix de production.

a. Quelles données peuvent indiquer le succès ou non d’un film par le public ?

b. Netflix, en tant que producteur, conseille à l’équipe de production des acteurs pour certains rôles. Comment Netflix peut-il prédire les meilleurs acteurs ?

c. Netflix produit de nombreuses bandes annonces pour une même production. Celles-ci ne sont pas toutes affichées à tous les utilisateurs. Comment Netflix adapte-t-il le contenu des bandes annonces ?

d. Quelles données sont intéressantes à investiguer à propos des séries produites par Netflix ? Pourquoi ?

11 Un utilisateur Netflix conserve un abonnement pendant environ 25 mois et apporte $291.25 à Netflix (valeurs moyennes).


a. De quel indicateur s’agit-il et en quoi est-ce utile ? Quelles décisions peuvent être prises en se basant sur ces indicateurs ?

b. Une « moyenne » est un indicateur limité. Pourquoi ?

c. Décrivez une approche qui permettrait d’avoir un regard plus segmenté ?

Grille comportant des éléments de réponse



3 - Tout est en réseau

Analyse d’une communauté sous l’angle de la donnée

Compréhension des mécanismes et leur impact sur la performance - management

Identification de sources d’opportunité et points de blocage - management

Collecte de données web

Web Crawling

Identifier des sources de données à forte valeur et savoir les intégrer dans une démarche

3-Analyse de données

Prise en main avec https://rapidminer.com/

A- Apprentissage non supervisé

Les algorithmes de Segmentation RFM et K-means

Application à la génération de persona sur l'échantillon de données client d'opérateur mobile

B- Apprentissage supervisé

Maitriser quelques algorithmes de prédiction

Arbre de décisions

Exemple de prédiction du churn

Répondre à une problématique métier (le churn)

Identifier des axes stratégiques d’amélioration grâce à l’étude

4-Communiquer avec les données


Data storytelling

Communication des résultats d’une étude

Contextualiser pour donner un impact à l’étude

Rendre exploitable facilement les résultats pour la prise de décision


bottom of page