abc

Comment la chaîne ABC a rendu 91 ans d'archives consultables en quelques millisecondes

abc
abc

91 ans d'histoire, consultables en quelques millisecondes

Kablamo a migré 6 pétaoctets de médias et 3 millions d'enregistrements pour ABC, remplaçant un processus de recherche manuelle de trois semaines par une plateforme qui fournit des résultats en quelques millisecondes. Les archives couvrent 91 ans d'histoire de la radiodiffusion australienne.

The process was slow, manual, inefficient and unacceptable, so we had to fix it.

ABC, Content Management

Archive search and retrieval system
CoDA platform dashboard

Le défi

Les archives de l'ABC couvraient 91 ans d'histoire de la radiodiffusion australienne, avec plus de 11 millions d'heures de fichiers vidéo et audio répartis sur de multiples systèmes cloisonnés. Trouver un contenu spécifique impliquait de naviguer entre cinq sites de stockage internes non connectés, des entrepôts physiques et des processus manuels pouvant prendre jusqu'à trois semaines pour une seule recherche. Des milliers de créateurs de contenu, de journalistes et d'utilisateurs internes utilisaient quotidiennement ces archives, mais le processus était, comme le décrivait l'équipe de gestion de contenu de l'ABC, « lent, manuel, inefficace et inacceptable ».

L'organisation devait refondre sa bibliothèque de contenu, abandonnant ses entrepôts dispersés, ses systèmes de métadonnées déconnectés et ses sites de stockage jamais entièrement numérisés. L'objectif était de consolider les métadonnées des cinq systèmes, de migrer des pétaoctets de médias vers une plateforme cloud unique et d'offrir une expérience de recherche permettant de localiser les archives en quelques secondes au lieu de plusieurs semaines. La plateforme devait couvrir l'ensemble des activités de l'ABC, de la recherche historique à la production d'actualités en direct et de programmes radio, et répondre aux besoins des milliers d'utilisateurs qui dépendent quotidiennement des archives.

Media metadata management

L'approche

La migration s'est déroulée en deux phases. Dans un premier temps, plusieurs sources de métadonnées ont été fusionnées en un seul document de référence, selon un nouveau format conçu en collaboration avec l'ABC. Cette consolidation des métadonnées a nécessité l'harmonisation des enregistrements provenant de cinq systèmes existants distincts au sein d'un schéma unifié. Pendant trois mois, le processus a été itéré grâce à des mises à jour constantes et aux retours des utilisateurs, permettant le transfert de plusieurs gigaoctets de métadonnées vers AWS S3. La démarche collaborative a permis de garantir que le nouveau format réponde aux besoins des archivistes, des journalistes et des producteurs de contenu de l'ensemble de l'organisation, en résolvant les incohérences entre les systèmes existants et en établissant une source unique de vérité pour chaque enregistrement.

Deuxièmement, les fichiers vidéo, audio et photo ont été migrés et alignés sur les métadonnées nouvellement normalisées. Ces fichiers ont été organisés dans des compartiments S3 avec des préfixes uniques et des noms de fichiers correspondant à des identifiants, créant ainsi une structure de stockage cohérente et prévisible, accessible par programmation. La migration a concerné des contenus couvrant toute l'histoire de la radiodiffusion australienne, des premiers enregistrements radio aux vidéos haute définition modernes. Chaque fichier multimédia a été lié à son enregistrement de métadonnées correspondant, garantissant ainsi que les résultats de recherche affichent immédiatement le fichier audio, vidéo ou image associé, accompagné de sa description.

Content ingestion workflow

Grâce aux services d'apprentissage automatique d'AWS, Kablamo a mis en œuvre Amazon Transcribe pour l'ingestion et le traitement des archives en vue de leur transcription, réduisant ainsi le recours au balisage manuel. Les archives audio et vidéo d'ABC ont atteint une précision de transcription supérieure à 90 %, rendant accessibles pour la première fois, par requête textuelle, des décennies de contenu audio et vidéo auparavant inaccessibles. Ces processus synchronisés ont permis d'intégrer 3 millions d'enregistrements au système CoDA (Content Digital Archive), soit un total de 6 pétaoctets de contenu audio, vidéo et photo. Cette stratégie a été étendue à d'autres systèmes, notamment pour le montage vidéo en direct et le montage radio en direct, faisant de CoDA la plateforme centrale de circulation des contenus au sein de l'organisation.


Les résultats

Un prototype de recherche d'archives dans le cloud, concluant, a été mis au point en six semaines, démontrant la viabilité de l'approche et l'amélioration significative de l'expérience de recherche par rapport au processus existant. CoDA a été déployé en production en trois mois. Les cinq anciens systèmes de stockage sont devenus obsolètes, l'ensemble du contenu étant désormais hébergé sur la plateforme cloud AWS pour un accès distant et évolutif, ainsi que des économies continues. Les coûts de stockage ont diminué grâce au passage d'une infrastructure physique et de serveurs sur site à un modèle cloud à la carte.

Building the Sydney Harbour Bridge - archival footage

Au cours des six premiers mois de CoDA, près de deux millions d'archives ont été mises en ligne, et leur contenu a été traité ou téléchargé plus de deux milliards de fois. La plateforme a éliminé la nécessité de récupérer physiquement les documents dans les entrepôts, et le personnel de tout le pays peut désormais accéder simultanément aux mêmes archives, quel que soit son emplacement. Les journalistes couvrant l'actualité peuvent ainsi localiser et extraire des images d'archives en quelques secondes, une opération qui exigeait auparavant plusieurs jours de coordination avec les archivistes.

Le système de transcription par apprentissage automatique a permis d'améliorer progressivement la visibilité des archives. À mesure que le contenu était traité, le corpus consultable s'est enrichi, rendant la plateforme de plus en plus précieuse pour les producteurs et les chercheurs qui devaient retrouver des moments précis des 91 ans d'histoire de l'ABC.

The Dismissal of Gough Whitlam - historic ABC archive material

Avoir hâte de

Aujourd'hui, ABC assure une recherche, un accès et une modification ultra-rapides des contenus, le temps de recherche dans les archives étant passé de plusieurs semaines à quelques millisecondes. La plateforme CoDA demeure l'épine dorsale des opérations de gestion de contenu d'ABC, répondant aux exigences quotidiennes de la production d'actualités, du montage radio et de la recherche historique. Son intégration aux flux de travail de l'actualité en direct et de la radio fait de CoDA non seulement une archive, mais un élément actif du processus de création de contenu : les nouveaux éléments y sont intégrés au fur et à mesure de leur production.

La transformation de CoDA a été présentée lors de la conférence NFSA Digital Directions en 2019, illustrant comment ce projet a révolutionné la gestion du patrimoine audiovisuel de la chaîne nationale australienne. Son architecture cloud sans serveur garantit l'évolutivité de la plateforme face à la croissance des archives de l'ABC, sans nécessiter d'investissements supplémentaires en infrastructure. Ce projet fait également l'objet d'une étude de cas publiée sur aws.amazon.com.

6 weeks
Prototype ready
3 months
Production launch
3M
Records migrated
6PB
Media at scale
AWS S3Amazon TranscribeServerless cloud technologyMachine learning