Chào các bạn! Vì nhiều lý do từ nay Truyen2U chính thức đổi tên là Truyen247.Pro. Mong các bạn tiếp tục ủng hộ truy cập tên miền mới này nhé! Mãi yêu... ♥

0 - Le départ



Vous vous trouvez dans un train, à l'intérieur d'une vieille gare de campagne avec des piliers en aciers un peu rouillés. Le train ressemble à ces petits trains que l'on peut utiliser pour visiter les villes, avec des arrêts pour admirer les monuments célèbres, mais il y a une énorme locomotive à vapeur devant, avec un wagon plein de charbon pour l'alimenter.

Debout, sur une estrade se trouve un homme habillé d'un costume bleu, devant un micro. Vous êtes assis sur un banc, au milieu de plein d'autres personnes, dans le sens de la marche, face à l'estrade et au Présentateur.

Le Présentateur : (chuchote) C'est bien eux pour le voyage ?

L'Homme aux lunettes teintées de noir : (s'approche de lui, et lui dit discrètement) Oui oui, Monsieur le Présentateur, tout est bon, vous allez pouvoir commencer.

Le Présentateur : (regarde ses notes, puis prends la parole dans le micro) Alors, hum. Bienvenue. Vous êtes bien dans ce train à destination du Big Data... Bon désolé, le lieu de départ est pas idéal, mais c'est la seule gare par ici, donc on va faire avec ...

La Foule : Oooooh

Le Présentateur : Je vous rassure, le voyage va être super intéressant, et on va découvrir plein de choses ensemble. Au début, sur la première partie de notre trajet, qui va être plutôt longue, on va s'intéresser à des données récoltées sur Wattpad. D'ailleurs, tout ceci a été rendu possible grâce aux données aimablement recueillies et fournies par cestdoncvrai  (tu as tous mes remerciements pour ça !) ainsi que d'autres données que j'ai récoltées sur mon propre compte.

La Foule : Mais de quoi parle-t-on en fait ?

Le Présentateur : Eh bien on a récolté des données : des nombres de vues, de votes, de parties, de mots, de lecteurs et on va essayer d'analyser tout ça pour répondre à des questions qu'on se pose. Par exemple, comment l'algorithme de classement fonctionne-t-il ? Quel est le lien entre nombre de vues et votes ? Et nombre de parties ? On va aussi donner des résultats et des (beaux) graphiques !

Au sujet du Big Data lui-même, je voudrais déjà, hum, attirer l'attention d'avance sur deux types de personnes qui se trompent au sujet du Big Data et des statistiques en général, ce qu'on pourrait appeler les deux extrêmes : premièrement ceux qui sous-estiment, voire pensent que ça ne marche pas, que ça sert à rien.

L'Avocat du Diable : (arrive du fond du wagon) Mais ce ne sont que des chiffres, ça ne décrit pas la réalité !

Le Présentateur : Oui, mais c'est là où tu trompes : le but ne va pas être de raconter genre pourquoi la vie ? ou de vouloir tout expliquer comme s'il y avait une théorie suprême qui pouvait tout faire. On va juste essayer de tirer le meilleur parti de toutes les données qu'on a.

Comme on dit : « All models are wrong, but some are useful » (tous les modèles sont faux, mais certains sont utiles). Cette citation est même tellement importante en statistique qu'elle a sa propre page Wikipédia :

https://en.wikipedia.org/wiki/All_models_are_wrong

[NDA : page Wikipédia que je viens de découvrir à l'instant en cherchant de qui est la citation, et il paraît qu'elle est attribuée au statisticien Georges Box en 1976/78, mais que le principe sous-jacent était déjà connu bien avant !]

Le Présentateur : (à l'Avocat du Diable) Tu as d'autres arguments ?

L'Avocat du Diable : (regarde sa liste et lit :) De toute façon, c'est bien trop compliqué pour pouvoir l'expliquer, ou pour pouvoir l'exprimer avec des équations ou un programme informatique !

Le Présentateur : Désolé, mon ami, mais c'est juste faux. Parce qu'en fait, la plupart des algorithmes qu'on utilise marchent. C'est un fait. Quand vous cherchez un trajet sur Google Maps ou un GPS quelconque, ça marche, ce que vous obtenez est bien un chemin raisonnable ; les prévisions météo, ça marche en général, même si ce n'est pas parfait ; et sur tant d'autres ensembles de données, on a des procédures qu'on va pouvoir appliquer, et qui vont nous permettre de dire des choses dessus. On a même beaucoup critiqué les géants du web (Google, Amazon, Facebook, Microsoft, entre autres) pour ça : c'est bien la preuve que ce qu'ils font fonctionne !

L'Avocat du Diable : Mais, on peut faire dire n'importe quoi aux chiffres et aux statistiques. C'est pour ça que ça sert à rien.

Le Présentateur : Ah justement c'est faux. Ou plutôt, on peut dire n'importe quoi, si on ne sait pas s'en servir.

Mr Contrexemple : (il était caché au milieu du public et se lève) C'est comme si je disais que la comptabilité ne sert à rien parce qu'on peut toujours tricher dessus !

Le Présentateur : (surpris) Mais euh, qu'est-ce qu'il fait ici, celui-là ? Bref, oui. Et je dirais même plus : il y a des « bonnes manières de procéder » qui sont connues, documentées et prouvées. Justement ce qui est gênant dans les stats, c'est que l'audience en général n'a pas les moyens de comprendre si les choses ont bien été faite rigoureusement ou non... Mais c'est un autre débat.

(se racle la gorge) Quoiqu'il en soit, si on est rigoureux, on ne peut pas faire n'importe quoi et encore moins faire dire n'importe quoi aux chiffres. Ce n'est pas contradictoire avec le fait d'interpréter les résultats à la fin. C'est comme le fameux verre à moitié vide ou à moitié plein. Ce sont deux interprétations possibles du nombre « 0.5 » ; ça ne veut pas dire pour autant qu'on fait dire tout et son contraire...

La Foule : Et alors, le deuxième type de personne ?

Le Présentateur : Eh bien, c'est totalement l'opposé. Je dirais, ceux qui se prennent pour des illuminés du Big Data, qui annoncent monts et merveilles. Le souci, c'est qu'en vrai ce n'est pas forcément aussi simple : on a souvent des données manquantes, voire pas de données sur certains phénomènes, et du coup on ne peut juste pas savoir, parfois.

Le Philosophe : (caché dans la foule) C'est la vie !

Le Présentateur : Oui, et ça va être un peu la phrase qui va nous guider. En d'autres termes, on va chercher des procédés raisonnables.

Le Matheux Rigoureux : Raisonnable dans quel sens ? On veut de la rigueur, ici !

Le Présentateur : (reprends la parole, pédagogiquement) Alors, ce qu'on rêverait d'avoir, ce sera une procédure qui soit rapide à exécuter d'un point de vue informatique ...

Le Computer Scientist : On a par exemple une super procédure en « n puissance 5 » qui mettra environ cent mille ans pour finir le calcul avec la technologie actuelle ... Mais ça marchera ! Enfin quand le calcul sera terminé...

Le Présentateur : Exactement, c'est pile ce qu'on ne veut pas ! On voudrait aussi ne pas avoir besoin de trop de données, et aussi avoir une très bonne précision. Et tout ceci, on aimerait que ça marche dans des cas très généraux, c'est-à-dire pour plein de problèmes différents.

Le Matheux Rigoureux : (scandalisé) Mais c'est pas possible, tu peux pas avoir tout à la fois ! Si tu as beaucoup de données, tu ne peux pas avoir un temps de calcul très faible ! Et si tu n'as pas beaucoup de données, comment veux-tu avoir des estimateurs précis ? Et avoir la même technique super-efficace, super-rapide et super-précise, qui marcherait pour tous les problèmes, ce serait délirant !

Le Présentateur : Oui, tout à fait. C'est pour ça qu'on va toujours chercher des procédures statistiques raisonnables, qui sont en fait des compromis. On peut voir ça en termes de pertes et de gains.

Par exemple, je peux avoir une procédure qui va être super précise, mais au prix d'un grand temps de calcul.

Ou alors avoir une autre qui marche quasi-universellement, mais au prix d'une précision plutôt faible.

Ou encore en avoir une qui est très rapide et très précise, mais qui ne marche que dans un cas super-particulier...

Mr Contrexemple : Cas très particulier qu'on ne rencontre peut-être pas en pratique, n'est-ce pas ?

Le Présentateur : (gêné) Oui, oui, effectivement... (se reprends) Très bien. Mon collègue présentateur n'est pas encore arrivé, il doit se cacher encore quelque part dans le wagon-restaurant. Bon c'est pas grave, que le voyage commence !

(Il fait signe au conducteur du train de commencer à démarrer)

Bạn đang đọc truyện trên: Truyen247.Pro