GROUPE INFRASTRUCTURE

Des briques aux octets : construire un avenir numerique

Exploiter 70 ans de donnees

Kablamo a construit un lac de donnees multi-locataire qui a permis d'exploiter plus de 70 ans de documentation et des petaoctets de donnees operationnelles pour l'un des plus grands groupes d'infrastructure australiens, ouvrant la voie a de nouveaux produits numeriques et sources de revenus a partir de donnees auparavant enfermees dans des documents papier et PDF.

“Apres presque 70 ans a developper, financer et gerer des infrastructures a travers le monde, il etait temps de transformer l'activite traditionnelle et de creer de nouvelles sources de revenus basees sur les donnees.”
Groupe Infrastructure, Transformation numerique

Le defi

Apres presque 70 ans a developper, financer et gerer des infrastructures residentielles et commerciales a travers l'Australie, l'Asie, l'Europe et les Ameriques, le client avait accumule un volume enorme de donnees operationnelles mais ne disposait pas des moyens pour en extraire de la valeur. Le defi etait considerable :

Des petaoctets de donnees stockes a divers endroits : plans, couts, cameras de securite, ascenseurs, climatiseurs, ainsi que des sources de donnees externes telles que la pollution atmospherique, le trafic et la meteo
Plus de 70 ans de documentation enfermee au format papier ou PDF
Des exigences critiques en matiere de securite, de gouvernance et de conformite, y compris des installations gouvernementales de haute securite
Des capacites internes tres limitees en matiere de developpement rapide de produits numeriques

L'unite informatique de l'organisation souhaitait demontrer que la documentation imprimee et PDF pouvait etre convertie en format lisible par machine grace au ML, comme premiere etape pour exploiter la valeur de decennies d'archives accumulees. Ces informations permettraient non seulement une utilisation plus efficace des actifs immobiliers existants, mais ouvriraient egalement la voie a de nouveaux produits numeriques et sources de revenus.

L'approche

Kablamo a structure l'engagement en deux volets paralleles : un volet Donnees couvrant la conception et la construction du lac de donnees ainsi que le developpement de modeles IA/ML, et un volet Developpement commercial couvrant le developpement de produits numeriques et l'analyse de croissance.

La premiere phase s'est concentree sur l'etablissement des fondations cloud. L'equipe a mis en place les structures de comptes AWS, les VPC, les zones d'atterrissage et les politiques IAM, puis a evalue et valide les sources de donnees pour l'ingestion. Un cadre AWS Data Lake a ete etabli avec un jeu de donnees initial couvrant des sources de construction, accompagne de pipelines CI/CD et de donnees. La gouvernance des donnees et les postures de securite ont ete definies des le depart, avec pour objectif de livrer un lac de donnees interrogeable dans les premieres semaines.

La deuxieme phase a etendu la plateforme avec des API Data Lake completees, des pipelines d'ingestion de donnees elargis avec nettoyage et transformation, des relations entre les donnees etablies a travers les sources, l'extraction des premieres informations exploitables, et la construction d'un produit numerique initial sur la plateforme.

L'architecture des donnees reposait sur des charges de travail serverless et evenementielles concues pour une scalabilite automatisee. Les donnees circulaient dans une seule direction : brut vers interrogeable vers enrichi. Plusieurs methodes d'ingestion etaient prises en charge, notamment les relations de confiance inversees, les API sur mesure via API Gateway et Lambda, et les flux Kinesis pour les donnees en temps reel. Toutes les donnees interrogeables etaient stockees au format Parquet pour des requetes Athena efficaces.

Les services AWS sous-tendant la plateforme comprenaient Glue pour la categorisation, l'ETL et le catalogage des donnees a travers un large eventail de sources en temps reel ; QuickSight pour les informations alimentees par le ML et la decouverte de tendances cachees ; Athena pour les requetes interactives serverless sur des ensembles de donnees de toute taille ; Aurora Serverless pour la gestion de bases de donnees auto-scalables traitant des milliers de flux en temps reel ; S3 pour le stockage de lac de donnees infiniment scalable ; Lambda pour le calcul serverless ; Kinesis pour l'ingestion de flux de donnees en temps reel ; API Gateway pour les API sur mesure ; SQS pour le traitement evenementiel ; et Glacier pour le stockage d'archives a long terme.

Pour le defi d'extraction PDF, des echantillons de donnees ont ete extraits du stockage reseau vers S3 et traites par plusieurs passes d'AWS Textract avec ajustement des parametres. L'equipe a etabli un modele scalable pour traiter plus de 100 000 fichiers. Les documents contenaient des tableaux et formulaires complexes necessitant un traitement attentif, mais les resultats se sont significativement ameliores grace au raffinement iteratif des donnees d'entree et des parametres d'extraction.

Les resultats

La plateforme de donnees intelligente permet la creation d'un nouveau lac de donnees en quelques minutes, contre plusieurs semaines avec l'approche precedente. La plateforme prend en charge la multi-location, permettant a differentes unites commerciales et equipes de science des donnees de travailler independamment dans des environnements isoles tout en partageant une infrastructure commune.

Les resultats de Textract etaient solides pour la conversion de plus de 70 ans de documentation PDF en donnees lisibles par machine. L'equipe a etabli un modele d'extraction scalable applicable a plus de 100 000 fichiers a travers l'organisation, transformant des decennies d'informations verrouillees en ensembles de donnees interrogeables. Les documents complexes contenant des tableaux, formulaires et mises en page mixtes ont ete traites par raffinement iteratif, produisant une sortie structuree alimentant directement le pipeline d'enrichissement du lac de donnees.

Une interface utilisateur personnalisee et un catalogue de donnees ont ete construits pour donner vie a la plateforme, offrant aux utilisateurs un moyen pratique d'explorer, rechercher et interroger les donnees ingerees sans necessiter un acces direct aux services AWS sous-jacents.

Tout au long de l'engagement, Kablamo a travaille aux cotes des equipes numeriques internes de l'entreprise pour developper les competences et les capacites necessaires a l'exploitation et a l'extension independante de la plateforme.

Perspectives d'avenir

Le groupe d'infrastructure est desormais positionne pour exploiter de nouvelles sources de revenus a partir d'actifs de donnees auparavant inaccessibles. L'architecture serverless et evenementielle signifie que la plateforme s'adapte automatiquement a mesure que de nouvelles sources de donnees sont connectees et que les volumes de requetes augmentent, sans necessiter de gestion d'infrastructure supplementaire.

Les equipes de science des donnees peuvent acceder a la couche de donnees interrogeables pour decouvrir des informations et orienter le developpement futur de produits. Le stockage base sur Parquet et la couche de requetes Athena permettent aux analystes d'executer des requetes complexes sur des petaoctets de donnees sans provisionner d'infrastructure de calcul.

L'architecture multi-locataire offre une flexibilite pour les integrations a travers l'organisation et ses operations mondiales, soutenant la vision a long terme de construction de produits numeriques bases sur les donnees, fondes sur des decennies de connaissances operationnelles accumulees. Ce qui etait autrefois du papier dans des classeurs est desormais un actif interrogeable capable d'alimenter la prochaine generation de services d'infrastructure.

Minutes

Provisionnement d'un nouveau lac de donnees

70+ ans

Documentation exploitee

Multi-locataire

Architecture flexible

Petaoctets

Ingestion de donnees en temps reel

AWS data lakeAWS TextractArchitecture serverlessIntegration de capteurs IoT

RELATED CASE STUDIES