Actualité 02 07 2012

Futur en Seine : les données dans tous leurs états

La Netscouade

Par La Netscouade

Impossible aujourd’hui d’échapper au déluge informationnel. Chaque jour nous produisons des milliers de "data", mais quelle importance leur accorder ? Retour sur la table ronde organisée dans le cadre de Futur en Seine autour de la thématique : les données dans tous leurs états !

L’exploitation du Big Data : beaucoup de promesses

«  Le Big Data offre une véritable promesse de rupture radicale avec le monde tel qu’on le connaît aujourd’hui ». C’est à Valérie Peugeot, chercheur et prospectiviste à Orange Labs, que revient la lourde tache d’introduire la vaste question des data. Que faire de cet océan de données auquel nous avons accès désormais ? Faut-il avoir peur de ces données, ou bien une exploitation bénéfique peut-elle en être tirée ?

Lorsque l’on pense « Big Data », c’est avant tout la notion de quantité qui ressort.  Vous connaissez la bibliothèque du Congrès aux Etats-Unis, considérée comme la plus grande bibliothèque du monde en terme de nombre de livre ? Pour l’agence Century Link, en 2015 nous aurons accès à 18 millions de fois le contenu de cette bibliothèque. La libération des données est un enjeu fondamental, qui comprend aussi bien les données autoproduites (les informations que l’on donne volontairement) que les « shadow data », c’est informations collectées sans que l’on s’en rende vraiment compte. Ces data sont collectées, assemblées en silos, doivent pouvoir être croisées entre elles. C’est cette étape qui est primordiale pour passer de la collecte à l’exploitation. Et des possibilités existent dans tous les domaines. Un exemple parmi tant d’autres : une compagnie d’assurance pourrait croiser des données sur l’état des sols et de l’air afin d’établir des prévisions plus solides et ainsi affiner son offre.

La promesse principale de l’open data ? La prédiction ! De plus en plus d’activités humaines « migrent » en ligne et surtout vers les réseaux sociaux : nos fréquentations, nos déplacements, nos achats… Autant de facteurs qui génèrent des données pouvant être croisées et faciliter des prédictions de toutes sortes — marketing, certes, mais aussi dans le domaine des comportements : une aubaine pour les pays en voie de développement qui espèrent notamment mieux prévoir l’allocation des aides.

Pour Henri Verdier, président de Cap Digital, un paramètre est fondamental pour comprendre cette nouvelle ère du Big Data : le coût. Une puce capable de stocker et transférer un nombre considérable de données coute en moyenne 1 centime ; et avec un simple ordinateur, n’importe qui avec quelques compétences mathématiques et informatiques peut traiter un nombre considérable de données. Cet espoir de prédiction du futur frôle parfois d’ailleurs la science-fiction : comment ne pas penser à Minority Report quand la police de Los Angeles croise les données pour prévoir les quartiers « à risque » et déployer les forces de police pour prévenir les crimes ?

Le Big Data bouleverse la narration du monde tel qu’on la connaît et nous tendent un miroir : qu’allons nous en faire ?

Quelles applications pour ce Big Data ?

L’exploitation du Big Data intéresse aussi bien le secteur privé que les institutions publiques.

 

 

Bénédicte Tilloy, directrice générale de SNCF Transilien, revient sur son expérience de l’open data. Dans le cadre du projet de lancement de sa plateforme d’applications, le Transilien Store, la SNCF a lancé le concours « Open App » : chacun pouvait déposer sur un site dédié son idée d’application exploitant les data. Si l’open data intéresse les entreprises, son exploitation semble inspirer également les citoyens : alors que le concours ne dure que six semaines, la SNCF enregistre plus de 2 000 idées postées sur le site. Plusieurs récompenses sont attribuées : si le prix du public a été accordé à une application qui permet de calculer les calories dépensées en prenant le train, AppliFit. le grand gagnant fut Transifoule (ou Tranquilien, le nom n’est pas encore définitif) qui donne en temps réel l’affluence des trains, voire des wagons, afin de choisir le moins chargé. Le succès de l’opération a convaincu la SNCF de prolonger l’expérience en juin avec l’opération HackDays SNCF Transilien. On semble donc passer d’un univers ou l’entreprise décide tout à un univers où le client inspire la politique de l’entreprise.

Les travaux autour de l’open data de Julien Laugel, datascientist à MFG Labs, propose une autre facette de l’exploitation des données. Avec les données du web ils ont développé plusieurs applications. Tout d’abord, pour l’agence Atout France, ils ont travaillé sur de nouveaux outils pour analyser le tourisme en France, en se basant sur la géolocalisation des photos prises par les touristes puis partagées sur les réseaux comme FlickR. Le résultat est surprenant : il a par exemple permis d’identifier une forte présence chinoise en… Bretagne. Autre exploitation, Cinémur. Vous connaissiez Spotify, qui permet de partager ce que vous écoutez en direct à vos amis ? L’application Cinémur indique les films que vous regardez, et en croisant vos informations et celles de vos amis vous procure des conseils personnalisés.

 

 

Le Big data ou l’ère de la gouvernementalité algorithmique ?

Mais qu’est ce que la gouvernementalité algorithmique ? C’est tout l’enjeu des travaux d’Antoinette Rouvroy. Ses études portent sur des modèles de prédiction basés sur d’importants volumes de données, qui permettraient une décision aidée par l’algorithme.

Le risque de la « prophétie autoréalisatrice » est grand. Comment mettre à l’épreuve les modèles ? Si l’on développe des prévisions, et qu’en conséquence on change notre attitude, on peut en guider le résultat. Comment alors établir de manière certaine que les prévisions originelles étaient correctes ? Le système est supposé se prémunir de ce qu’il prévoit…

Enfin dernier axe, le concept même d’individu dans le Big Data. On parle ici d’un savoir non situé, ce qui est d’ailleurs une de ses forces. Il ne peut y avoir  d’enjeu de protection des données de la vie privée dans le Big Data car il n’y a pas d’individu ! Le Big Data est constitué d’un réseau conséquent de données, des données qui ne représentent personnes. On est dispensé de représentation, c’est tout l’enjeu du « data mining » : la présence y est permanente, mais pas personnalisée… Les instruments informatiques doivent donc décrypter puis analyser les masses de données,  afin d’en tirer comme un véritable mineur les informations dissimulées. Une fois les outils programmés et bien programmés, l’exploitation des données peut être gigantesque : on peut alors caractériser nos comportements d’achat, et ainsi pouvoir perfectionner sa communication, individualiser les produits…

L’exploitation du Big Data revêt donc des formes multiples. Chacun peut croiser des data, équipé d’un simple ordinateur, et en tirer ses propres conclusions. Les data changent notre manière de vivre, de gouverner : en d’autre terme, et comme le conclue Tim Berners-Lee, « demain celui qui contrôlera les métadonnées, contrôlera le web ».