| Migration Talend-dbt :un passeport pour moderniserses données |
|
|
|
|
|
L’ETL Talend est très connu pour sa version OS, « OS » pour Open Studio . Talend, l’éditeur de l’ETL éponyme, a été racheté par Qlik en mai 2023. La version gratuite de l’ETL Talend (« TOS ») n’est plus distribuée depuis début 2024. Cela implique que « TOS » n’est plus maintenu ni mis à jour. C’est Talend Data Fabric, la version payante de « TOS », qui prend le relais, avec un meilleur support, de nouvelles fonctionnalités, etc. Beaucoup d’entreprises qui avaient fait le choix de « TOS », envisagent de quitter la plateforme pour échapper au modèle payant, entre autres raisons. Par ailleurs, un outil du nom de "dbt" (Data Build Tool) connaît une croissance vertigineuse. Dans cet article, nous vous expliquons comment envisager une transition entre TOS et dbt. |
|
|
|
|
|
| Les ETL dont Talend, ont moins la cote en général. |
|
|
|
|
|
La fin des ETL ? Les ETL, qui permettent d’« externaliser » sur des machines tierces le process de transformation de données, et donc de « soulager » les bases de données, ont une valeur ajoutée moindre avec l’avènement de bases de données Cloud puissantes, telles que BigQuery, Snowflake, Redshift et autres. Avec un ELT, les transformations sont directement effectuées au sein du DWH. |
|
| |
|
|
|
| La valeur ajoutées incomparable du SQL Les workflows dessinés avec les interfaces d'ETL sont faciles à prendre en main, mais rigides, alors que les frameworks ELT de dernière génération, en « quasi » SQL, ont une grande souplesse et utilisent un langage universel : le SQL (ou des dialectes du SQL) ! |
|
|
|
|
|
Parmi les frameworks connaissant la croissance la plus soutenue, il y a dbt (de dbt Labs), né en 2016 avec déjà 3500 entreprises utilisatrices ! Quelques-unes de ses caractéristiques : - dbt permet de modulariser le SQL en utilisant des modèles (« models ») et des macros (via Jinja).
- dbt utilise de simples fichiers YAML pour gérer des configurations / définir les dépendances et spécifier les relations entre les modèles (dans un DAG : Directed Acyclic Graph).
- Les tests de qualité sont définis dans les fichiers YAML.
- dbt est versionné avec Git, l’outil de versioning le plus utilisé dans le monde.
…. Et dbt propose une version open source (dbt Core), et donc un modèle « freemium» qui d'ailleurs avait permis l'éclosion rapide de Talend il y a quelques années... |
|
| |
|
|
|
Au-delà de cette migration de Talend vers dbt qui peut faire consensus, la forte profondeur d’historique de la plateforme source, avec des flux intriqués qui ont pu foisonner pendant des années, implique que la migration sera nécessairement un challenge complexe. En tous cas, en mode « papier / crayon » . Nous pensons que l’automatisation de cette migration s’impose. |
|
|
|
|
|
| Migrer de Talend à dbt en automatisant le processus |
|
|
|
|
|
Définir ce qui doit être migré {openAudit} analyse les flux de données et les croise avec les usages de la donnée, pour ne migrer que ce qui doit l’être et pour définir une roadmap par métier. Comment : - Analyse des flux : {openAudit} analyse les processus internes via un data lineage physique, au champ, dans la base de données en source et dans Talend : analyse des vues, des vues imbriquées et des autres scripts associés à l'alimentation des flux.
- Analyse des usages de la donnée : {openAudit} analyse certains logs des bases d'audit, pour la consommation et l’injection des données.
|
|
| |
|
|
|
| Conversion des logiques de Talend en SQL avec {openAudit} - Ordonnancement des transformations élémentaires : {openAudit} détecte les sources, les cibles, les filtres et les logiques de transformation de l’ensemble des Jobs et sous-Jobs Talend, et isole les transformations qui seront portées vers dbt.
- Conversion en SQL : les transformations de Talend sont converties en requêtes SQL par {openAudit}, étape par étape.
- Points de contrôle : chaque étape SQL correspond à une étape du Job en source, ce qui permet à {openAudit} d'introduire de vrais points de contrôle.
|
|
|
|
|
|
Conversion des logiques ETL de Talend vers la logique de dbt - Adaptation à dbt : le SQL généré peut être ajusté par {openAudit} pour s'adapter à la syntaxe de dbt & BigQuery (par exemple) - Option : ajout des modèles dans la configuration des projets, définition des dépendances entre modèles.
- Tests : tests des SQL en "dry run" dans la base de données cible avec {openAudit}. - Option : tests des données pour garantir leur intégrité.
|
|
| |
|
|
|
CONCLUSION La transition de Talend à dbt représente une ambition stratégique pour les entreprises qui souhaitent adopter des solutions légères, flexibles et qui veulent mettre à profit la puissance des dernières architectures Cloud. Avec {openAudit}, cette migration est optimisée en amont, et la conversion précise des logiques ETL en SQL peut permettre ce « move » dans des délais courts et de manière forfaitaire. Des tests rigoureux garantiront la fiabilité de la migration. |
|
|
|
|
|
|
Commentaires
Enregistrer un commentaire