Pendant longtemps, la qualité d’une base clients B2B était un sujet “compta” qu’on évoquait à voix basse en fin de comité de direction, sans urgence particulière. En 2026, c’est devenu un sujet de Direction Financière, parfois même un sujet de Direction Générale. Deux échéances l’expliquent : la réforme de la facturation électronique, qui rend la facturation électronique obligatoire en France pour toutes les entreprises B2B à partir de septembre 2026, et la vague de migrations ERP que vivent en ce moment des centaines d’ETI françaises pour se mettre à niveau (Oracle, SAP S/4HANA, Microsoft Dynamics, Sage X3…).
Quand ces deux chantiers tombent la même année, le verdict est presque toujours le même : la base clients héritée de dix ans de saisie commerciale n’est ni assez complète, ni assez structurée, ni assez fiable pour alimenter le nouveau système ou émettre des factures électroniques conformes. Et un cleaning manuel à la main de plusieurs dizaines de milliers de fiches est, dans la quasi-totalité des cas, incompatible avec les délais imposés.
C’est exactement la situation à laquelle nous avons été confrontés début 2026 sur une mission menée pour un leader européen des loisirs (5 000 collaborateurs, plusieurs dizaines de milliers de clients B2B). Cet article décrit en détail le contexte, le workflow d’enrichissement déployé, les résultats obtenus et les enseignements transposables à toute ETI française qui se prépare à 2026. Si vous voulez voir notre méthodologie complète sur le sujet, elle est synthétisée sur notre page IA Data Clean.
L’essentiel en 30 secondes
- Qui : un leader européen des loisirs (5 000 collaborateurs), Direction Financière Groupe.
- Pourquoi : migration ERP Oracle + préparation facturation électronique septembre 2026.
- Combien : plusieurs dizaines de milliers de fiches clients B2B à enrichir.
- Comment : workflow automatisé Clay + API Sirène (INSEE) + API VIES (TVA UE) + IA générative.
- Combien de temps : 1 mois, 1 consultant mobilisé côté Stema Partners.
- Résultat : 93 % de complétude sur l’ensemble de la base, passage à blanc Oracle réussi, base prête bien avant l’échéance 2026.
Pourquoi la base clients devient un sujet critique avant la facturation électronique 2026
Dans la plupart des entreprises B2B, la base clients a été construite par les équipes commerciales, au fil des contrats, avec un objectif simple : savoir à qui on vend, pour pouvoir facturer et relancer. Ce mode de saisie organique a très bien fonctionné pendant des années — jusqu’à ce que deux mouvements de fond changent les règles du jeu.
Le premier, c’est la facturation électronique obligatoire introduite par la réforme française. À partir de septembre 2026, toute entreprise française doit pouvoir émettre et recevoir ses factures B2B au format électronique structuré (Factur-X, UBL, CII), via une Plateforme de Dématérialisation Partenaire (PDP) ou le Portail Public de Facturation. Cette norme exige des données beaucoup plus précises qu’une simple “fiche client commerciale” : raison sociale officielle, SIRET, numéro de TVA intracommunautaire, adresse normalisée, code NAF. Sans ces champs, la facture est rejetée — et le cash bloqué. Pour le contexte réglementaire complet, voir notre guide pratique facturation électronique 2026.
Le second mouvement, c’est la vague de migrations ERP que vivent en ce moment les ETI françaises. Les anciens systèmes (souvent des ERP des années 2000 ou 2010) arrivent en bout de vie, et les nouveaux ERP modernes (Oracle Fusion, SAP S/4HANA, Dynamics 365…) imposent des schémas de données beaucoup plus stricts. Une fiche client incomplète qui passait sans broncher dans l’ancien système est tout simplement rejetée par le nouveau. Sur ce sujet, notre article De l’ERP à l’IA : connecter vos données financières détaille les enjeux structurels.
Quand les deux chantiers se déclenchent la même année — et c’est ce que vivent en ce moment des centaines d’ETI françaises — le sujet “qualité des données clients” remonte mécaniquement au niveau de la Direction Financière, parce que c’est elle qui porte la responsabilité comptable et la facturation. Et c’est elle qui doit aussi expliquer au comité de direction pourquoi le projet est en risque.
Le contexte : un groupe de 5 000 collaborateurs face à deux deadlines simultanées
Le groupe que nous avons accompagné est un leader européen des loisirs, structuré autour d’un portefeuille d’activités variées et de plusieurs filiales opérationnelles. Sa base clients B2B regroupe plusieurs dizaines de milliers d’entités : tour-opérateurs, agences de voyage, hébergeurs, comités d’entreprise, distributeurs, partenaires institutionnels — répartis principalement en France, avec une part significative en Europe et un long tail à l’international.
Cette base avait été constituée au fil des années par les équipes commerciales et marketing du groupe, avec une logique purement commerciale : connaître les interlocuteurs, suivre les contrats, déclencher les facturations. Pendant longtemps, c’était suffisant. Mais début 2026, deux projets stratégiques sont arrivés en collision :
- La migration vers un nouvel ERP Oracle, avec un calendrier de bascule serré et un schéma de données beaucoup plus exigeant que le système précédent.
- La préparation à l’obligation de facturation électronique 2026, qui impose de disposer pour chaque client B2B des identifiants légaux complets (SIRET pour la France, TVA intracommunautaire pour l’Europe, identifiants nationaux pour le reste du monde).
La Direction Financière du groupe a commencé par lancer une évaluation interne de la qualité de la base. Le diagnostic a été sans appel : trop de fiches incomplètes, trop d’identifiants manquants, trop de doublons fantômes pour passer en l’état. Et l’estimation de l’effort de cleaning manuel — plusieurs mois, plusieurs équivalents temps plein — était tout simplement incompatible avec le calendrier de bascule ERP. Une consultation a été lancée, et c’est dans ce cadre que Stema Partners est intervenu.
Ce que contenait réellement la base clients
L’audit qualité interne avait identifié les défauts récurrents qu’on retrouve, à des degrés divers, dans à peu près toutes les bases clients B2B saisies par des commerciaux pendant plusieurs années. Voici le portrait-robot, qui n’a rien d’exceptionnel :
- Des noms commerciaux à la place des raisons sociales officielles : “Le Petit Café de la Place” au lieu de “SARL DUPONT & FILS”. Pour un commercial, c’est plus parlant. Pour un ERP ou une PDP de facturation électronique, c’est inutilisable.
- Des noms d’entreprise mal orthographiés ou tronqués : variations de casse, accents oubliés, suffixes juridiques manquants ou incorrects.
- Des SIRET manquants ou erronés : champ optionnel à la création de fiche, pas vérifié, parfois rempli avec un SIREN à la place ou un SIRET d’un ancien établissement fermé.
- Des numéros de TVA intracommunautaire absents sur la majorité des clients européens.
- Des adresses incomplètes ou obsolètes : déménagements non répercutés, codes postaux manquants, pays non renseigné pour les clients étrangers.
- De nombreux doublons fantômes : un même client présent 2 ou 3 fois sous des orthographes légèrement différentes, sans clé unique pour les rapprocher automatiquement.
À retenir : dans une base clients B2B saisie par des équipes commerciales pendant 10 ans, il n’est pas rare de trouver moins de 50 % des SIRET officiels exigés par la facturation électronique 2026. Ce n’est pas un problème de compétence des équipes — c’est un problème structurel qui ne peut pas être traité à la main quand la base dépasse quelques milliers de fiches.
Le workflow d’enrichissement déployé en 1 mois
C’est sur ce constat qu’on a conçu — et déployé — une chaîne d’enrichissement automatisée, structurée en quatre étapes, orchestrée sur Clay et alimentée par plusieurs sources de données officielles et un agent IA générative. L’idée directrice : ne jamais inventer une donnée, mais toujours la sourcer auprès d’une référence officielle et tracer chaque enrichissement.
Pour aller plus loin sur l’outil Clay et son fonctionnement en cascade, on a publié un avis complet sur Clay 2026 qui détaille la mécanique d’enrichissement multi-sources.
Étape 1 — Identification de l’entreprise par agent IA
Le point de départ, c’est presque toujours un fragment d’information commerciale : un nom commercial, une note prise à la volée par un commercial, un bout d’adresse, parfois juste un numéro de téléphone. Un agent IA génératif est chargé d’analyser ces indices pour reconstituer l’identité réelle de l’entreprise et retrouver son identifiant unique (SIRET en France, TVA intra en Europe, identifiant national hors UE).
Cette étape est la plus délicate : c’est elle qui fait le pont entre la donnée commerciale “vivante” et la donnée légale “structurée”. Sans cette traduction, aucune des étapes suivantes n’est possible. C’est aussi à ce moment qu’on identifie les fiches trop dégradées pour être enrichies automatiquement et qui devront être traitées en revue manuelle.
Étape 2 — Enrichissement en cascade selon la zone géographique
Une fois l’entreprise identifiée, on bascule sur une logique de cascade géographique : selon la zone, on interroge la source officielle la plus fiable, et on bascule sur la suivante en cas d’absence de match.
| Zone | Identifiant clé | Source d’enrichissement | Données récupérées |
|---|---|---|---|
| France | SIRET | API Sirène (INSEE) | Raison sociale, adresse, code NAF, statut juridique, date de création |
| Europe (UE) | TVA intracommunautaire | API VIES (Commission européenne) | Validation TVA, raison sociale, adresse légale |
| Hors Europe | Recherche IA | Agent IA générative | Nom officiel, adresse, identifiants locaux (à validation manuelle) |
L’API Sirène (INSEE) couvre l’intégralité des entreprises françaises, est mise à jour quotidiennement et permet de récupérer en quelques millisecondes la raison sociale officielle, l’adresse de l’établissement, le code NAF et le statut juridique. L’API VIES (Commission européenne) joue le même rôle pour les TVA intracommunautaires européennes. Pour le hors-Europe, qui représentait quelques pourcents du volume total, on s’est appuyé sur un agent IA chargé de récupérer et de proposer les informations, à charge pour les équipes internes de les valider en revue.
Étape 3 — Dédoublonnage sur clé unique
L’arrivée des SIRET et TVA intracommunautaires dans la base a immédiatement débloqué un travail jusqu’ici impossible : le dédoublonnage automatique sur clé unique. Tant qu’on n’a que des noms de société orthographiés librement, distinguer un vrai doublon d’une vraie homonymie demande un travail d’enquête fin. Avec un SIRET à 14 chiffres, le rapprochement devient mécanique : deux fiches qui partagent le même SIRET sont, par définition, le même établissement.
Cette étape a permis d’identifier — et de fusionner — un nombre significatif de doublons fantômes qui dormaient dans la base depuis des années. C’est aussi un effet secondaire bienvenu d’un projet de mise en conformité facturation électronique : on en sort avec une base plus petite, plus propre, et plus facile à maintenir.
Étape 4 — Livraison enrichie avec données originales conservées
Dernier point méthodologique, et il est plus important qu’il n’en a l’air : le fichier livré contient à la fois les données enrichies (issues de Sirène, VIES, IA) et les données originales côte à côte. Cette double colonne permet à l’équipe interne de comparer, valider, contester chaque enrichissement avant de basculer dans Oracle. C’est aussi ce qui rend le projet auditable : on peut, à tout moment, retracer pour chaque ligne ce qui a été modifié, par quelle source et avec quel niveau de confiance.
Votre base clients est-elle prête pour la facturation électronique 2026 ?
Notre offre IA Data Clean évalue gratuitement la qualité de votre base et propose un plan d'enrichissement chiffré.
Découvrir IA Data CleanLes résultats chiffrés : 93 % de complétude en 1 mois
Au bout de quatre semaines de mission, le bilan était le suivant :
- 93 % de complétude atteinte sur l’ensemble de la base clients enrichie
- 1 mois calendaire pour traiter l’intégralité des dizaines de milliers de fiches
- 1 seul consultant mobilisé côté Stema Partners
- Environ 100 fois plus rapide qu’un traitement manuel équivalent estimé en interne
Concrètement, ces chiffres ont permis trois choses très tangibles côté client. D’abord, le passage à blanc dans Oracle a été validé un mois après le démarrage de la mission, ce qui a sécurisé le calendrier de bascule ERP — un point qui était à risque rouge avant l’intervention. Ensuite, la base est prête bien avant l’échéance de septembre 2026 pour émettre des factures électroniques conformes. Enfin, le groupe dispose désormais des clés uniques (SIRET, TVA) qui permettront de maintenir la qualité dans la durée et de continuer à dédoublonner la base au fil de l’eau, sans repartir de zéro.
Ce qu’on en retient pour les ETI françaises
Au-delà du cas particulier de cette mission, trois enseignements nous semblent transposables à toute ETI française qui se prépare à la double échéance ERP + facturation électronique 2026.
1. La qualité des données clients est un sujet structurel, pas un problème de compétence commerciale. Reprocher à une équipe commerciale d’avoir “mal saisi” sa base est à la fois injuste et inefficace : la donnée a été saisie pour un usage commercial, dans des conditions opérationnelles, à une époque où ces exigences légales n’existaient pas. Le bon réflexe n’est pas d’organiser une chasse aux sorcières interne, mais de changer de méthode et de passer à une approche automatisée.
2. L’IA seule ne suffit pas : il faut combiner IA et sources officielles. Si on demande à un modèle de langage généraliste de “compléter une base clients”, il va inventer des SIRET plausibles et des numéros de TVA crédibles — c’est le syndrome classique de l’hallucination, et il est inacceptable sur de la donnée légale. La méthode qui marche, c’est celle qui utilise l’IA comme un agent d’identification et de recherche, puis qui fait valider chaque donnée par une source officielle (Sirène, VIES, registres équivalents). C’est l’approche détaillée plus largement dans notre article sur l’enrichissement de données B2B.
3. Plus le volume est élevé, plus l’écart entre manuel et automatisé devient critique. Sur une base de 1 000 clients, un cleaning manuel reste envisageable (long, mais faisable). À 10 000 clients, c’est déjà douloureux. À 50 000 clients ou plus, c’est tout simplement impossible dans les délais imposés par une migration ERP. Et c’est exactement à ce niveau de volume que se trouvent la plupart des ETI françaises — d’où l’urgence de structurer le sujet maintenant, et pas en juillet 2026.
Si vous voulez en parallèle anticiper le chantier sur la base fournisseurs (qui pose les mêmes problèmes mais avec une criticité différente), nous l’avons traité en détail dans un article dédié : Enrichir une base fournisseurs B2B avant la facturation électronique 2026.
FAQ
Combien de temps faut-il pour enrichir une base clients B2B de plusieurs dizaines de milliers de fiches ?
Avec une approche automatisée combinant Clay, l’API Sirène (INSEE), l’API VIES et un agent IA générative, un mois calendaire suffit pour traiter une base de plusieurs dizaines de milliers de fiches avec un seul consultant dédié. À titre de comparaison, un traitement manuel équivalent demanderait plusieurs équivalents temps plein pendant plusieurs mois — c’est généralement incompatible avec un calendrier de migration ERP ou de mise en conformité facturation électronique 2026.
Quel niveau de complétude peut-on espérer avec une approche automatisée ?
Sur une base clients B2B française et européenne, on atteint typiquement entre 90 et 95 % de complétude sur les champs critiques (raison sociale officielle, SIRET ou TVA intra, adresse normalisée, code NAF). Les 5 à 10 % restants correspondent à des fiches trop dégradées pour être enrichies automatiquement (commerces fermés, doublons inextricables, erreurs de saisie majeures) et doivent être traitées en revue manuelle par les équipes internes. Pour la mission décrite dans cet article, le taux de complétude final était de 93 %.
Combien coûte un projet d’enrichissement de base clients B2B ?
Le coût dépend principalement du volume de fiches à traiter, de la complexité de la base d’origine et de la part de fiches internationales (qui mobilisent davantage l’IA et nécessitent plus de validations manuelles). À titre d’ordre de grandeur, un projet d’enrichissement complet d’une base de plusieurs dizaines de milliers de fiches B2B se situe dans la fourchette des dizaines de milliers d’euros, contre plusieurs centaines de milliers d’euros pour un cleaning manuel équivalent. Notre offre IA Data Clean propose un audit gratuit de qualification.
Faut-il un data engineer interne pour démarrer ce type de projet ?
Non. Toute la chaîne d’enrichissement est opérée côté Stema Partners, et le livrable est un fichier exploitable directement par les équipes internes (Direction Financière, Data, IT). Aucune compétence technique avancée n’est requise côté client : il suffit de pouvoir fournir l’extraction de la base existante (au format CSV, Excel ou directement depuis un CRM/ERP) et d’identifier un référent métier qui pourra valider les enrichissements ambigus.
Quelles sont les sources officielles pour vérifier un SIRET et une TVA intracommunautaire ?
Pour la France, la source officielle est l’API Sirène maintenue par l’INSEE, qui recense l’intégralité des entreprises françaises et de leurs établissements (raison sociale, adresse, code NAF, statut juridique). Elle est mise à jour quotidiennement et accessible via une API ouverte. Pour les TVA intracommunautaires européennes, la référence est l’API VIES opérée par la Commission européenne, qui permet de valider en temps réel un numéro de TVA intra et de récupérer la raison sociale et l’adresse associées. Toutes les autres sources commerciales (Pappers, Infogreffe, Dropcontact, etc.) s’appuient en réalité sur ces deux référentiels publics.
Comment garantir la traçabilité et l’audit après enrichissement ?
La règle clé, c’est de ne jamais écraser les données originales. Le fichier livré doit contenir, pour chaque ligne, les colonnes “données d’origine” et “données enrichies” côte à côte, avec pour chaque enrichissement un marqueur de source (Sirène, VIES, IA, validation manuelle) et un niveau de confiance. Cette double colonne permet à l’équipe interne de comparer, contester et valider chaque modification avant la bascule dans l’ERP, et garantit la traçabilité en cas d’audit comptable ou de contrôle administratif.
Conclusion
L’échéance de septembre 2026 pour la facturation électronique se rapproche, et la plupart des ETI françaises qui ne se sont pas encore penchées sérieusement sur la qualité de leur base clients vont se retrouver, dans les mois qui viennent, dans la même situation que ce leader européen des loisirs : un audit interne qui révèle un écart trop grand pour un cleaning manuel, et un calendrier qui ne laisse pas de marge.
La bonne nouvelle, c’est qu’il existe désormais des méthodes automatisées qui permettent de traiter le sujet en quelques semaines plutôt qu’en plusieurs mois, avec un niveau de qualité largement supérieur à ce qu’aurait produit une équipe humaine en mode manuel. La condition, c’est de structurer le projet maintenant, et pas en juillet 2026 quand toutes les agences spécialisées seront saturées.
Si vous voulez évaluer où vous en êtes, l’audit gratuit de notre offre IA Data Clean prend une demi-heure et vous donne un plan d’action chiffré. Et si votre prochain chantier concerne aussi les données fournisseurs, lisez notre article sur l’enrichissement de la base fournisseurs avant 2026 — le sujet est encore plus sous-estimé.