Menu
× Accueil Blog Créer un compte

Lien entre Donnée et Pétrole

De la donnée brute au doux parfum de l’algorithme

Le secteur numérique génère plus de valeur qu’aucun autre secteur aujourd’hui. Et cela ne devrait s'atténuer au fil des années qui viennent car la matière première de ce secteur, les données, ne cesse de croître et les algorithmes qui permettent de les traiter sont de plus en plus puissants.

Qu’est-ce qu’un algorithme ?

L’algorithme est comme une recette de cuisine

Avant d’aller au coeur du sujet, je vous invite à prendre des forces en vous cuisinant un bon plat de pâtes. Pour cela, il nous faut quelques ingrédients, un peu de matériel et une bonne recette.
  • Des ingrédients : de l’eau, des pâtes et du beurre salé (Nous avons beaucoup de travail alors faisons simple) ;
  • Du matériel : une plaque de cuisson, une casserole et un égouttoir ;
  • Une recette (Simple mais nécessaire si c’est la première fois que vous faites des pâtes).

Et voici la recette :

  1. Mettez de l’eau dans une casserole ;
  2. Portez à ébullition ;
  3. Plongez les pâtes dans l’eau ;
  4. Patientez quelques minutes (suivant les pâtes et vos préférences de cuisson) ;
  5. Une fois le temps écoulé, versez le contenu de la casserole dans l’égouttoir ;
  6. Ajoutez le beurre. C’est prêt !

Et voilà, rien de plus simple. Et si je vous disais que nous venons à la fois de préparer un bon plat et de découvrir un algorithme. Impossible ? Et pourtant : la recette n’est autre qu’un algorithme tandis que les ingrédients et le matériel sont nos éléments de base : les données.

Les algorithmes sont très présents dans nos vies et ne se cantonnent pas à l’informatique.

Imaginez un instant que vous n’ayez jamais fait de pâtes et que l’on ne vous ait jamais expliqué comment en faire. Difficile d’imaginer par soi-même qu’il faut les plonger dans l’eau un certain temps avant de pouvoir les manger. Sans la recette, tous les ingrédients et le matériel ne vous servent à rien. C’est pour cela qu’on parle d’éléments bruts ou de matière première. Une fois la recette terminée, on parle alors de produit fini prêt à être consommé.

Un algorithme permet de passer d’un état A à un état B grâce à la réalisation de différentes étapes successives.

L’algorithme est une suite d’étapes

Et maintenant une illustration : combien font 2*4*8*16*32*51 ? A première vue, ce calcul s’avère difficile. Mais avec une calculatrice cela devient bien plus simple. En tapant sur votre calculatrice « 2 » puis le signe « multiplier » puis 4 puis le signe « multiplier » puis « 8 » puis … « multiplier » par « 51 » vous obtiendrez le résultat en ayant réalisé un algorithme !

Le saviez-vous ? Le taux de croissance et le taux de chômage sont deux indicateurs phares de notre économie qui sont calculés à l’aide d’algorithme reposant sur de nombreuses données telles que le nombre d’actifs, le nombre d’inactifs, la durée sans activité, etc.

La recherche d’un mot dans un dictionnaire – cet exemple est régulièrement cité pour décrire le fonctionnement d’un algorithme – consiste en une succession d’étapes simples : tout d’abord ouvrir le dictionnaire à la première lettre du mot ensuite faire défiler les pages jusqu’à trouver la seconde lettre du mot et ainsi de suite jusqu’à trouver le mot en question.

Un algorithme permet de passer d’un état à un autre grâce à une succession d’étapes.

Le saviez-vous ? Un algorithme ne fait pas d’erreur : si le résultat d’un algorithme n’est pas conforme à l’attendu, c’est soit que les instructions n’ont pas été bien programmées ou alors que les données communiquées à l’algorithme n’étaient pas suffisantes (Imaginez cuire des pâtes sans eau…).

Et en informatique, est-ce la même chose ? C’est exactement pareil. Les étapes sont tout simplement des instructions programmées par l’homme et exécutées par la machine. L’algorithme est une des clés essentielles du processus informatique et numérique et c’est ce que nous allons voir dans la prochaine partie.

Les données sont au coeur des algorithmes

La cycle de la donnée et la métaphore du pétrole

Les données sont souvent considérées comme l’or noir du XXIe siècle, voyons donc ce qui rapproche les données au pétrole.

Le pétrole dans son état brut est un composé de divers hydrocarbures qu’il est nécessaire d’aller chercher sous terre avec la technique du forage. Une fois le pétrole extrait, il est nécessaire de le transporter et le stocker avant de le raffiner, c'est-à-dire de le rendre propre à la consommation en le nettoyant et le traitant pour le transformer en essence par exemple.

Si nous devions résumer, les différents processus que nous venons de voir :

  • La collecte (le forage)
  • Le transport et le stockage
  • Le traitement (le raffinage)

Toutes ces étapes sont importantes pour générer de la valeur. Et c’est d’ailleurs vrai pour toutes les matières premières : le blé et le pain, la fève de cacao et le chocolat, le bois et le meuble, etc. C’est la transformation d’un produit qui permet d’en extraire toute sa valeur potentielle. Et ce sont ceux qui maitrisent ces savoir-faire, artisans et entreprises, qui en tirent le plus grand bénéfice.

Le cycle de la donnée se décompose en trois phase : la collecte, le transport/stockage et le traitement.

Pour la donnée, c’est exactement la même chose. Les données collectées sont communément appelées des données brutes et leur valeur est faible. Puis les données sont acheminées par le réseau internet aux serveurs qui vont les stocker avant d’être traitées à l’aide des algorithmes. Ces données passées par la moulinette des algorithmes portent le nom de données raffinées ou données agrégées ou encore données combinées (je vous laisse choisir le terme qui vous convient, j’utilise souvent pour ma part le terme de données agrégées). Ce sont ces données qui ont de la valeur.

  • La collecte de données brutes
  • Le transport par le réseau internet et le stockage dans des serveurs
  • Le traitement des données à l’aide d’un ou plusieurs algorithmes

La métaphore de l’or noir a ses limites : il est tout à fait possible de comparer la donnée au pétrole comme nous venons de le faire. Il faut néanmoins garder à l’esprit une différence fondamentale entre ces deux matières : lorsque le pétrole est transformé en essence, le pétrole initial n’est plus disponible. A l’inverse la donnée reste toujours disponible : on peut l’utiliser et la dupliquer à l’infini.

Les résultats des algorithmes changent en fonction des données. Google et les autres moteurs de recherche.

Analysons un instant le travail réalisé par Google sur son moteur de recherche pour comprendre le fonctionnement d’un algorithme et ses résultats. Google a développé des robots qui passent en revue le web permettant ainsi de collecter une liste de tous les sites web (ou presque, voir web et deep web). Ces données sont ensuite moulinées avec les algorithmes conçus par Google permettant ainsi de déterminer le rang d’une page web sur son moteur de recherche.

Le traitement de la donnée se fait à l’aide d’algorithmes

Le saviez-vous ? Le web est comme un iceberg : il a une partie visible, celle accessible par les moteurs de recherche et une partie cachée appellée le web profond (ou anglais deep web) qui représente 90% de l’ensemble du web. - Attention à ne pas confondre avec le dark web qui est un réseau alternatif.

Les critères utilisés par Google pour déterminer l’importance d’une page sont subjectifs et ne seront pas les mêmes d’un moteur à l’autre. Faites le test en recherchant le mot « données » sur plusieurs moteurs de recherches, par exemple : Google, Bing, Yahoo et Qwant et vous verrez que les résultats de vos recherches seront différents. Il est important que vous ayez bien en tête que le web est subjectif par nature : tous les services que vous utilisez ont tous été programmés par une femme ou un homme assis derrière un ordinateur.

Le saviez-vous ? La subjectivité peut se définir comme l’expression de ses idées personnelles alors que l’objectivité signifie de rester neutre.

Plus les données sont nombreuses, plus les algorithmes sont pertinents. Le cas Amazon.

Prenons enfin un dernier exemple avec le cas Amazon. Grâce à l’ensemble de ses visiteurs et de ses acheteurs, Amazon récolte un très grand nombre de données : les produits consommés, les produits achetés ensemble, les parcours d’achats, les produits qui ne se vendent pas, etc.

Les résultats d’un traitement algorithmique sont subjectifs.

Avec l’ensemble des données collectées, il est en capacité de déterminer quels livres sont régulièrement achetés ensemble, les produits que vous allez commander avec un pack de lessive ou encore le prochain jeu-vidéo sur la base de vos habitudes. Cela permet à Amazon de vous pousser des recommandations en phase avec vos attentes et ainsi accroitre ses ventes. Son système de recommandation basé sur des masses de données est un des facteurs qui explique sa réussite internationale.

L’exemple d’Amazon n’est qu’un parmi tant d’autres au sein de l’économie numérique. Les entreprises qui collectent des données en vue d’améliorer leur processus de vente ou de les utiliser à des fins publicitaires sont de plus en plus nombreuses. Elles profitent toutes des milliards de données émises chaque jour et nous allons dans la prochaine partie étudier les phénomènes ayant conduit à cette explosion du nombre de données.