Comment utiliser UNION ALL BY NAME pour simplifier vos requêtes BigQuery SQL ?

UNION ALL BY NAME dans BigQuery facilite la combinaison de résultats en alignant les colonnes par nom, pas par ordre. Ce simple ajustement évite les erreurs classiques d’alignement et optimise vos requêtes SQL, sans bidouiller l’ordre des colonnes – selon la documentation officielle de Google Cloud.

3 principaux points à retenir.

UNION ALL BY NAME permet de fusionner des résultats SQL en appariant les colonnes par nom et non par position.
Cette fonctionnalité réduit drastiquement les erreurs de correspondance entre colonnes lors des opérations UNION ALL.
Améliore la lisibilité et la maintenance de vos requêtes BigQuery, même avec des colonnes dans des ordres différents.

Qu’est-ce que la fonctionnalité UNION ALL BY NAME dans BigQuery SQL et pourquoi est-ce important

La fonctionnalité UNION ALL BY NAME dans BigQuery SQL marque un tournant significatif dans la manière dont les données peuvent être manipulées et combinées. En d’autres termes, cela permet d’unir des ensembles de résultats en alignant les colonnes par nom, plutôt que par leur position. Oui, ça change la donne ! Pourquoi ? Tout simplement parce que cela élimine les contraintes d’alignement strict des colonnes, une source fréquente d’erreurs dans les requêtes SQL traditionnelles.

Imaginons une situation classique : vous avez deux tables, table_a et table_b. La première a des colonnes id, nom et valeur, et la seconde a les colonnes nom, valeur et id, mais dans un ordre différent. Voici ce qui se passe :


SELECT id, nom FROM table_a
UNION ALL
SELECT nom, valeur FROM table_b

Cette requête échouera parce que BigQuery attend un alignement exact des colonnes. Si vous utilisez UNION ALL BY NAME, la magie opère :


SELECT id, nom FROM table_a
UNION ALL BY NAME
SELECT nom, valeur FROM table_b

Avec cette nouvelle fonctionnalité, les noms des colonnes sont maintenant les seuls critères d’alignement qu’il faut respecter. Cela réduit les tracas liés à la vérification et à la réorganisation des colonnes, ce qui de fait simplifie la vie des analystes de données et des développeurs BigQuery.

La fiabilité ainsi gagnée est cruciale, surtout lorsque plusieurs sources de données hétérogènes doivent être agrégées. Moins d’erreurs signifie moins de temps perdu à déboguer des requêtes. Comme le montre cette documentation officielle, il est même possible de mélanger et d’accorder des colonnes de types de données différents, à condition que les noms correspondent. Une avancée qui donne un sérieux coup de fouet à la productivité et à la flexibilité dans la manipulation de données.

Comment écrire une requête performante en utilisant UNION ALL BY NAME en pratique

Pour comprendre comment utiliser UNION ALL BY NAME dans BigQuery, prenons un exemple concret. Imaginons que nous avons deux tables ayant des colonnes avec des noms identiques mais dans des ordres différents. Cela pourrait poser problème lors d’une requête traditionnelle, car SQL attend des colonnes dans le même ordre. Voici une approche classique :

SELECT 
    id, 
    nom, 
    age 
FROM 
    table_a 
UNION ALL 
SELECT 
    nom, 
    age, 
    id 
FROM 
    table_b;

Cette requête va échouer parce que les colonnes ne sont pas alignées dans le même ordre : id, nom, age ici, et nom, age, id dans la seconde table. Ce qui empêche l’instruction de fonctionner.

Maintenant, voyons comment utiliser UNION ALL BY NAME. Cette fonctionnalité permet de fusionner des résultats de différentes tables sans se soucier de l’ordre des colonnes, tant que les noms des colonnes sont identiques. Voici à quoi ressemble une requête qui fonctionne parfaitement :

SELECT 
    id, 
    nom, 
    age 
FROM 
    table_a 
UNION ALL BY NAME  
SELECT 
    nom AS nom, 
    age AS age, 
    id AS id 
FROM 
    table_b;

Grâce à UNION ALL BY NAME, les noms des colonnes sont la clé de la fusion des résultats, ce qui évite les erreurs de correspondance d’ordre. Notez que chaque colonne doit avoir le même type. Par exemple :

id doit être du même type dans les deux tables (par exemple, INT64).
nom doit être de type STRING.
age doit être du même type (par exemple, INT64).

Si ces conditions sont respectées, alors la requête passe sans accroc. Pour approfondir vos connaissances sur les expressions de table communes et d’autres éléments consommables dans vos requêtes SQL, jetez un œil à cet article ici. Cela vous fournira des bases solides et des options pour optimiser vos requêtes SQL dans BigQuery.

Quels avantages concrets UNION ALL BY NAME apporte-t-il dans vos projets data et analyses

Lorsque l’on parle de UNION ALL BY NAME dans BigQuery, il est crucial de comprendre les avantages pratiques qu’elle apporte. Premièrement, on parle de gain de temps. En facilitant l’union de données même lorsque les colonnes varient entre les différentes sources, les data engineers peuvent passer moins de temps à préparer les jeux de données. Moins de préparation signifie des analyses plus rapides.

Ensuite, il y a la réduction des erreurs. Avec la méthode classique d’union, il est courant de se retrouver avec des erreurs dues à des colonnes qui manquent ou qui sont mal alignées. UNION ALL BY NAME réduit ce risque en s’assurant que même si certaines colonnes sont absentes, toutes les autres continueront à être réunies correctement. Cette fonctionnalité est particulièrement utile dans des projets où les données proviennent de sources hétérogènes, avec des schémas qui changent régulièrement.

La meilleure maintenabilité est un autre atout. Les requêtes deviennent plus faciles à lire et à modifier. Plutôt que de jongler avec des commandes de combinaison compliquées et potentiellement sujettes à des erreurs, les analystes peuvent travailler avec une syntaxe plus intuitive qui donne un sens immédiat à ce qu’ils font.

Cependant, cela ne veut pas dire que UNION ALL BY NAME est parfait. Il existe des limites. Par exemple, une colonne peut être présente dans un jeu de résultats et absente dans un autre. Cela peut compliquer les analyses si on s’attend à toujours obtenir des données spécifiques. Ainsi, toute la flexibilité a un prix ; il convient d’être conscient des éventuels effets inattendus sur le résultat final.

Facilité d’usage : UNION ALL BY NAME
Risque d’erreur : Baisse significative avec UNION ALL BY NAME
Lisibilité : Améliorée avec UNION ALL BY NAME
Performances : Légèrement affectées si les jeux de données sont très variés
Cas d’usage : Idéal pour des bases de données non homogènes

En conclusion, pour les data engineers et analystes modernes, la pertinence d’UNION ALL BY NAME ne peut être sous-estimée. C’est un outil puissant pour simplifier la collecte et l’analyse de données, surtout dans un monde où l’hétérogénéité des données est la norme.

Alors, vous êtes prêt à révolutionner vos unions de données SQL avec UNION ALL BY NAME ?

UNION ALL BY NAME casse enfin les contraintes vieillottes qui obligeaient à un alignement strict par position des colonnes. BigQuery facilite la vie des data pros en appariant automatiquement les colonnes sur leurs noms, peu importe leur ordre. Cette fonctionnalité évite les erreurs faciles à faire, améliore la lisibilité et diminue la maintenance des requêtes. Surtout, elle s’impose comme un incontournable dans la gestion de données complexes issues de sources différentes. Pour les analystes et développeurs BigQuery, c’est un gain de temps considérable sans compromis sur la performance ou la précision. Prenez le pli, vos requêtes vous remercieront.

FAQ

Qu’est-ce que la différence principale entre UNION ALL et UNION ALL BY NAME dans BigQuery ?

UNION ALL combine les résultats en alignant les colonnes par ordre, ce qui nécessite que les colonnes soient dans le même ordre et de même type dans chaque requête. UNION ALL BY NAME aligne les colonnes par leur nom, indépendamment de leur position, évitant ainsi les erreurs liées à un mauvais ordre.

Puis-je utiliser UNION ALL BY NAME avec des colonnes absentes dans l’une des requêtes ?

Non. Pour que UNION ALL BY NAME fonctionne, les colonnes doivent avoir les mêmes noms dans chaque requête. Sinon, BigQuery peut générer une erreur ou ajouter des colonnes avec des valeurs NULL si elles n’existent pas dans une requête, ce qui peut poser problème.

Est-ce que UNION ALL BY NAME affecte les performances des requêtes dans BigQuery ?

L’impact sur les performances est généralement négligeable. Le moteur optimise les opérations UNION. La simplicité induite par UNION ALL BY NAME permet plutôt d’éviter des corrections longues et complexes, ce qui accélère globalement le développement et la maintenance.

Comment gérer les types de données dans UNION ALL BY NAME ?

Les colonnes avec un même nom doivent avoir des types compatibles ou identiques. Si les types ne correspondent pas, la requête échouera, comme avec UNION ALL classique. Il faut donc valider ou caster les colonnes avant la jointure.

À partir de quelle version ou date BigQuery supporte-t-il UNION ALL BY NAME ?

Google BigQuery a annoncé la prise en charge de UNION ALL BY NAME en 2023 dans ses mises à jour officielles, disponible pour tous les utilisateurs dans sa version standard SQL. Vérifiez toujours votre environnement pour confirmation.

Franck Scandolera

⭐ Analytics engineer, Data Analyst et Automatisation IA indépendant ⭐

Ref clients : Logis Hôtel, Yelloh Village, BazarChic, Fédération Football Français, Texdecor…

Mon terrain de jeu :

Data Analyst & Analytics engineering : tracking avancé (GTM server, e-commerce, CAPI, RGPD), entrepôt de données (BigQuery, Snowflake, PostgreSQL, ClickHouse), modèles (Airflow, dbt, Dataform), dashboards décisionnels (Looker, Power BI, Metabase, SQL, Python).
Automatisation IA des taches Data, Marketing, RH, compta etc : conception de workflows intelligents robustes (n8n, App Script, scraping) connectés aux API de vos outils et LLM (OpenAI, Mistral, Claude…).
Engineering IA pour créer des applications et agent IA sur mesure : intégration de LLM (OpenAI, Mistral…), RAG, assistants métier, génération de documents complexes, APIs, backends Node.js/Python.