Activité 1 Big Data-Métadonnées

Quelques débouchés professionnels : Ingénieur Big Data / Data analyst / Architecte Big Data / Ingénieur Cloud Computing

 

Les données constituent la matière première de toute activité numérique. Afin de permettre leur réutilisation, il est nécessaire de les conserver de manière persistante.

L’octet est l’unité de base d’une capacité de stockage… mais à quoi correspond cet octet et que peut-on stocker concrètement avec un seul ? En informatique, un octet est un regroupement de 8 bits et un bit peut prendre que deux valeurs soit 0 soit 1. En conséquence, un octet peut avoir 256 valeurs différentes (256 = 2^8).

À faire vous-même 1 :

  • Ouvrez la calculatrice de Windows et configurez-la en mode « programmeur », puis mettez-vous en édition « binaire » (cochez sur « Bin »)

  • Saisissez l’octet de valeur la plus élevée soit « 11111111 » (8 un !) et observez la valeur équivalente en décimal

Cette valeur maximale n’est pas 256 mais 255 ; sachant que la valeur 0 est la première valeur, il y a bien 256 valeurs différentes possibles ! Un octet peut donc représenter un nombre compris entre 0 et 255… mais quoi d’autre encore ? Un octet peut représenter un caractère alphanumérique selon la table ASCII :

À faire vous-même 2 :

  • Ouvrez un éditeur de texte quelconque puis enfoncez la touche « alt » du clavier tout en tapant sur le clavier numérique le nombre décimal 86 afin d’écrire un « V » majuscule

  • Continuez ainsi en écrivant « Vive la SNT !» en utilisant uniquement le clavier numérique et la touche « alt »

  • Sachant qu’il existe une table ASCII étendu pour les caractères spéciaux comme le « ç » de valeur 135, poursuivez de la même manière en ajoutant « ça marche »

Il existe un codage plus complet prenant en compte tous les caractères du monde et même les smileys… c’est l’UNICODE représenté sur 1 à 4 octets.

Mais que peut-on stocker avec… :

  • 1 Kilo octet (1000 octets) ® un document texte de quelques pages
  • 1 Méga octet (1000 K octets) ® environ une minute de musique au format MP3
  • 1 Giga octet (1000 M octets) ® environ un film de 1h basse qualité
  • 1 Téra (1000 G octets) ® capacité d’un disque dur d’un ordinateur
  • 1 Péta octet (1000 T octets) ® environ une journée de stockage de Facebook
  • 1 Exa octet (1000 P octets) ® environ le stockage actuel de Facebook

1 Zetta octet (1000 E octets) ® environ la quantité de données échangées par an sur internet. Actuellement le stockage mondial représente environ 10 Zetta octets

Un centre de données (en anglais data center) est un lieu (et un service) regroupant des équipements constituants du système d’information d'une ou plusieurs entreprise(s) (ordinateurs centraux, serveurs, baies de stockage, équipements réseaux et de télécommunications, etc.).

Des enjeux environnementaux sont liés d'une part à leur consommation de métaux rares ou précieux et de terres rares, et d'autre part à une consommation croissante d'électricité de l'ensemble des centres de données

Nos activités (écoute de musique en ligne, partage d’images, capteurs d’objets connectés, etc.) génèrent la circulation d’énormes quantités de données. Pour extraire les informations pertinentes rapidement, on peut procéder à l’indexation des données (ce que font les moteurs de recherche) ; On utilise aussi, de plus en plus, des algorithmes d’apprentissage pour analyser ces données… on parle alors de Big Data !

À faire vous-même 3 :

Un meilleur usage plus respectueux de l’environnement est recommandé sans pour autant se passer de toutes ces nouvelles technologies rendant de nombreux services… et sans non plus se dispenser des cours de SNT !

Passons maintenant aux métadonnées.

Une métadonnée (mot composé du préfixe grec meta, indiquant l'auto-référence ; le mot signifie donc proprement « donnée de/à propos de donnée ») est une donnée servant à définir ou décrire une autre donnée quel que soit son support (papier ou électronique).

Un exemple type est d'associer à une donnée la date à laquelle elle a été produite ou enregistrée, ou à une photo les coordonnées GPS du lieu où elle a été prise.

À faire vous-même 4 :

  • Observez les différentes métadonnées du fichier mp3 d’une chanson provenant d’un CD situé dans le dossier de l’activité (cliquez droit sur le fichier « Rolling In The Deep » puis cliquez gauche sur propriétés) :

Remarque : Il est possible de compléter manuellement certains descripteurs comme la notation et à l’inverse supprimer certaines propriétés et les informations personnelles

Les propriétés du fichier donnent de multiples informations comme sa taille en Méga octets, le nom de l’artiste, le style etc. : mais il est possible d’en savoir encore plus en utilisant des logiciels spécifiques qui analysent son contenu.

À faire vous-même 5 :

  • Observez davantage de métadonnées de ce même fichier mp3 (cliquez droit sur le fichier « Rolling In The Deep » puis cliquez gauche sur « MediaInfo ») en préférant la forme HTML (Menu Vue/HTML)

  • Procédez de même avec l’une des deux vidéos de l’activité

Le code HTML d’une page Web, contient généralement des métadonnées (informations supplémentaires sur la page Web) dans des balises orphelines <meta> :

  • Balise <meta charset> : Cette balise indique l'encodage de caractères utilisé dans la page, ce qui permet au navigateur de l'interpréter correctement.
  • Balise <meta name="viewport"> : Cette balise est utilisée pour spécifier comment la page doit s'afficher sur les appareils mobiles. Elle peut définir la largeur de l'écran, l'échelle de zoom, etc.
  • Balise <meta name="description"> : Cette balise permet de fournir une description concise du contenu de la page. Elle est souvent utilisée par les moteurs de recherche pour afficher un extrait dans les résultats de recherche.
  • Balise <meta name="keywords"> : Cette balise était autrefois utilisée pour spécifier des mots-clés liés à la page. Cependant, les moteurs de recherche modernes accordent moins d'importance à cette balise, car elle a été souvent utilisée de manière abusive pour le référencement.
  • Balise <meta name="author"> : Cette balise permet de spécifier l'auteur de la page.
  • Balise <meta http-equiv="refresh"> : Cette balise est utilisée pour effectuer une redirection automatique vers une autre page après un certain laps de temps.
  • Balise <meta name="robots"> : Cette balise permet de contrôler le comportement des robots d'indexation des moteurs de recherche. Elle peut indiquer si une page doit être indexée ou non, ou si certains types de contenus doivent être ignorés.

À faire vous-même 6 :

  • Retrouvez des métadonnées d’un site (Par exemple : Données structurées) (Une fois sur le site, maintenez la touche « fn » enfoncée puis appuyez la touche « F12 » pour faire apparaitre le code avec ses balises <meta> ; vous pouvez faire ensuite « ctrl f » pour rechercher cette balise)