AGENCE GOUVERNEMENTALE

Questions-réponses : sécurisation des données d'entretien

Réduction de 50 % de la charge de travail en deux semaines

Kablamo a créé une plateforme de données d'entretiens sécurisée pour une agence gouvernementale, réduisant ainsi la charge de travail de transcription de plus de 50 % grâce à la reconnaissance vocale basée sur l'apprentissage automatique avec un vocabulaire personnalisé, un stockage crypté et une conformité de sécurité à grande échelle.

“This lays the groundwork for a living interview solution that could support positive investigative outcomes.”
Government Agency, Interview Data Platform

Interview room setup for secure data recording

Historic interrogation scene reference imagery

Le défi

Les entretiens gouvernementaux constituent un précieux patrimoine numérique qui exige une gestion, une transcription, un stockage et une consultation rigoureux. Le système existant imposait au personnel administratif de transcrire manuellement les entretiens. Compte tenu de la grande variabilité de la qualité audio et de la durée moyenne d'un entretien (une heure), le processus était long, coûteux et éprouvant pour le personnel, étant donné la nature sensible des informations recueillies.

La transcription d'un entretien d'une heure pouvait prendre entre cinq et dix heures, selon la qualité de l'enregistrement. Un important retard dans les transcriptions s'accumulait au sein de l'agence. Les entretiens étaient stockés sur supports physiques dans un entrepôt centralisé, et les délais de recherche et de consultation s'allongeaient à mesure que les archives grossissaient. Les anciens systèmes rendaient difficile la consultation croisée et la recherche dans plusieurs dossiers.

La solution devait répondre à quatre priorités d'égale importance : l'optimisation de la transcription vocale, l'édition des transcriptions, le stockage et la récupération des données, ainsi que le chiffrement et la sécurité. Compte tenu de la sensibilité des données, la sécurité n'était pas une simple considération secondaire, mais une exigence primordiale dès le départ.

L'approche

Kablamo a conçu une plateforme sécurisée de gestion des actifs numériques, accordant une importance égale aux quatre domaines. Les premiers prototypes du système et de l'éditeur ont été livrés en moins de deux semaines et mis à la disposition des équipes de l'agence pour des tests. Les retours des utilisateurs lors de ces essais ont permis d'optimiser la version finale.

La phase de recherche sur la transcription vocale a permis de tester Amazon Transcribe avec des données d'entretiens réels de qualité variable, incluant différents accents, l'utilisation d'argot, la diction, le matériel d'enregistrement et les types de fichiers. Les taux de réussite ont été suivis dans plusieurs configurations afin d'orienter le développement de la solution d'apprentissage automatique.

Une découverte importante est ressortie des expériences de prétraitement audio. L'équipe a testé différentes méthodes pour améliorer la transcription d'enregistrements de faible qualité, notamment la normalisation du volume, la réduction du bruit et l'ajustement de la vitesse. Contre toute attente, le prétraitement audio a en réalité réduit la précision dans la plupart des cas. Le pipeline d'apprentissage automatique avait été entraîné à compenser les imperfections de l'audio brut, et la modification des enregistrements a introduit des artefacts qui ont causé plus d'erreurs qu'ils n'en ont évitées. Le choix d'utiliser l'audio brut comme entrée principale a permis d'améliorer les résultats de manière générale.

Pour l'identification des locuteurs, l'équipe a testé des méthodes de diarisation par canal. La séparation multicanal avec une attribution claire des canaux a permis d'obtenir une précision quasi parfaite lorsque chaque canal ne contenait qu'un seul locuteur. La précision diminuait lorsque les locuteurs parlaient simultanément ou alternaient rapidement, ce qui a influencé la conception de l'interface de correction manuelle de l'éditeur de transcription.

L'entraînement personnalisé du vocabulaire a permis d'obtenir d'excellents résultats pour les termes et expressions spécifiques au domaine qui apparaissaient fréquemment lors des entretiens. Le système a bien géré le langage juridique et procédural spécialisé après l'entraînement. Les noms propres, y compris les noms de lieux, ont donné des résultats mitigés : le système remplaçait parfois des mots courants par des noms de lieux à la sonorité similaire, un compromis géré par l'interface d'édition plutôt que d'être éliminé par programmation.

La plateforme comprenait un éditeur de transcription avec visualisation de la forme d'onde audio, affichage de la liste des locuteurs et séparation des canaux audio stéréo. Conçu pour une efficacité optimale, cet éditeur permettait aux utilisateurs de relire et de corriger les transcriptions tout en écoutant l'audio original, l'interface mettant en évidence les passages les plus difficiles à corriger pour une relecture prioritaire.

Les résultats

L'automatisation de la transcription vocale a permis de réduire la charge de travail du personnel administratif de 50 % ou plus pour la plupart des enregistrements audio. Il en a résulté des gains d'efficacité et des améliorations du bien-être mental du personnel qui, auparavant, devait écouter à plusieurs reprises des entretiens confidentiels pour en réaliser des transcriptions manuelles.

La plateforme d'édition s'est avérée intuitive grâce à sa conception axée sur l'expérience utilisateur. Le personnel pouvait consulter les transcriptions générées par l'apprentissage automatique, corriger les erreurs et annoter le contenu sans formation spécialisée. La formation personnalisée au vocabulaire a permis une maîtrise précise du langage spécifique au domaine dès la première relecture, réduisant ainsi le nombre de corrections nécessaires.

La plateforme a fourni un système sécurisé basé sur le cloud pour le stockage, la recherche et la modification des données d'entretiens, remplaçant ainsi l'ancien entrepôt de médias physiques par un référentiel d'actifs numériques. Le chiffrement des données au repos et en transit, associé à une journalisation d'audit complète, répond aux exigences de sécurité de l'agence en matière de traitement des informations sensibles. Chaque accès, modification et exportation est consigné avec une attribution complète, fournissant ainsi la traçabilité requise par le cadre de gouvernance de l'agence.

Les temps de recherche et de consultation ont été considérablement améliorés par rapport au système d'archives physiques. Le personnel peut désormais localiser des entretiens précis, effectuer des recherches par mots-clés ou expressions dans les transcriptions et consulter des documents historiques en quelques secondes, sans avoir à attendre que les supports physiques soient localisés et livrés depuis l'entrepôt.

Avoir hâte de

Cette solution va bien au-delà de l'efficacité de la transcription. Elle ouvre la voie à un avenir prometteur pour l'agence grâce à l'apprentissage automatique. Les données d'entretiens étant désormais stockées numériquement dans un format structuré et consultable, la plateforme offre des fonctionnalités impossibles avec les archives physiques : le méta-étiquetage des entretiens, le recoupement des données entre les dossiers et l'identification de tendances dans de vastes volumes de documents d'entretiens.

Les fonctionnalités futures envisagées comprennent l'intégration matérielle pour une efficacité d'édition accrue, des outils de référencement croisé plus performants et des modèles d'apprentissage automatique supplémentaires, entraînés sur le corpus croissant de données d'entretiens transcrits. À mesure que la plateforme évolue, chaque nouvel entretien intégré au système améliore la précision du modèle d'apprentissage automatique pour le vocabulaire et les conditions audio spécifiques à l'agence. Ce qui a commencé comme un projet d'optimisation de la transcription est devenu la base d'une capacité de renseignement interrogeable, sécurisée et enrichie par l'apprentissage automatique.

50%+

Workload reduction

2 weeks

Initial prototype delivered

Encrypted

Full-scale security

ML-trained

Custom vocabulary recognition

AWS TranscribeCustom ML vocabulary trainingEncryption and log auditingAudio preprocessing pipeline