Stratégie · 10 min de lecture

Données IA PME : le prérequis oublié avant vos agents

60 à 70% du temps d'un projet IA part à chercher la donnée. Voici pourquoi structurer vos données avant vos agents IA n'est pas facultatif.

Par

Colin Dargent

La plupart des dirigeants de PME qui me contactent ont déjà un projet IA en tête. Un agent pour traiter les commandes, un assistant pour le support client, un outil pour automatiser les relances. Le projet est concret. L’ambition est réelle.

Ce que personne ne leur a dit : 60 à 70% du temps de ce projet partira à chercher la donnée, pas à l’exploiter.

TL;DR : déployer un agent IA sans couche data structurée, c’est payer un coursier pour livrer des colis qui n’existent pas encore. Selon une étude Cloudera et Harvard Business Review Analytic Services (mars 2026), seulement 7% des entreprises estiment leurs données complètement prêtes pour l’IA. Le prérequis n’est pas technique - c’est organisationnel. Trois chantiers concrets : centraliser les identifiants de liaison, séparer entités et activités, construire le pipeline par niveaux. Dans cet ordre.

Pourquoi vos agents perdent leur temps à chercher la donnée

Un agent IA n’invente rien. Il exécute à partir de ce qu’il peut lire. Si la donnée dont il a besoin est éparpillée entre votre CRM, votre ERP, vos tableaux Excel et les mémoires de vos collaborateurs, l’agent passe l’essentiel de son temps à la reconstituer - pas à produire de la valeur.

J’ai documenté ce pattern sur plusieurs missions PME consécutives en 2026 : dans chaque déploiement d’agent, entre 60 et 70% du temps de mise en production est consacré à localiser, nettoyer et rendre accessible la donnée. Pas à programmer la logique métier. Pas à tester les cas limites. À chercher où est la donnée, et sous quelle forme elle existe.

Ce n’est pas un problème de modèle IA. Claude, GPT-4o ou Gemini - peu importe. Un agent excellent dans un environnement data mal organisé produit des résultats médiocres. La qualité du raisonnement est bridée par la qualité de l’input.

Une étude publiée en mars 2026 par Harvard Business Review Analytic Services et Cloudera, auprès de plus de 230 décideurs impliqués dans les projets IA de leurs organisations, confirme ce constat à grande échelle : seulement 7% des entreprises estiment leurs données complètement prêtes pour l’IA. Les 93% restants engagent des ressources dans des projets IA avant d’avoir résolu le problème de fond.

Ce que signifie une organisation “queryable” par l’IA

Diana Hu (Y Combinator) formule ce concept clairement dans son playbook sur les entreprises AI-native : une organisation est queryable quand chaque action qu’elle produit laisse un artefact structuré qu’un agent peut exploiter. Réunion sans compte-rendu ? Connaissance perdue. Décision prise par Slack ? Décision intraçable. Métrique qui vit dans une tête ? Métrique inutilisable par un agent.

Ce n’est pas une contrainte technique - c’est une discipline opérationnelle.

Ramp, la fintech américaine, a poussé ce principe jusqu’à ses outils internes avec Glass - un OS IA interne où chaque action opérationnelle est adressable par requête. La valeur n’est pas dans l’outil lui-même : c’est dans le fait que chaque décision, chaque transaction, chaque signal client existe quelque part sous une forme structurée.

Pour une PME de 30 personnes, ça ne demande pas de construire Glass. Ça demande trois réflexes : enregistrer les réunions systématiquement, migrer les décisions clés des messages privés vers des outils centralisés, et avoir au moins un dashboard qui couvre les metrics opérationnelles réelles - pas seulement la partie “propre” des données.

Le prérequis à tout agent autonome est que l’information dont il a besoin existe quelque part, de façon structurée et accessible. C’est non-négociable.

La distinction qui change tout : entités vs activités

Avant de construire quoi que ce soit, une clarification structurelle s’impose. Dans une couche data agentique, deux types d’objets coexistent et n’obéissent pas aux mêmes règles.

Les entités sont mutables : un client change d’adresse, un produit change de prix, un fournisseur change de conditions. Ces objets s’upsertent - on met à jour l’enregistrement existant.

Les activités sont immuables : une commande passée, une validation signée, une analyse produite ne s’éditent pas. Elles s’ajoutent. Une commande annulée n’efface pas la commande d’origine - elle crée un événement “annulation” avec sa propre date.

Cette séparation - que les architectes data nomment parfois Entity-Centric Activity Graph - a trois effets immédiats : les jointures entre les deux types donnent les vues métier sans transformation complexe, les conflits de données disparaissent (on n’écrase plus des états passés), et un audit trail se construit naturellement sans effort supplémentaire.

La règle pratique : quand 3 chantiers ou plus ont besoin du même référentiel, il faut construire la couche commune d’abord. Les construire séparément, c’est recréer les mêmes entités autant de fois - et intégrer de la dette à chaque itération.

Le pipeline en trois niveaux : Bronze, Silver, Gold

Savoir quoi structurer est une chose. Savoir comment séquencer cette structuration en est une autre. Le modèle Bronze/Silver/Gold offre une grille opérationnelle simple.

Bronze : la donnée brute, ingérée sans transformation depuis les sources existantes. CRM exporté, logs ERP, exports comptables, historiques emails. Tout rentre tel quel. L’outil Airbyte - avec ses 300+ connecteurs natifs vers Supabase et les principales bases de données - automatise cette couche sans code custom pour les sources standard.

Silver : la donnée structurée et joignable. Les entités sont normalisées, les doublons éliminés, les identifiants de liaison documentés. C’est à ce niveau qu’on modélise la séparation entités/activités. Un agent peut déjà requêter cette couche pour des analyses transversales.

Gold : la donnée interprétée, taguée, prête pour les agents. Les colonnes ont des définitions métier claires, les anomalies sont flagguées, les metrics calculées. C’est à ce niveau que les agents opèrent en production.

Ce pipeline clarifie qui fait quoi : les outils d’ingestion gèrent le Bronze, les développeurs ou consultants data structurent le Silver, les agents transforment du Silver vers Gold selon les besoins spécifiques de chaque chantier.

Un point souvent sous-estimé par rapport à la décomposition des processus en actions atomiques : la couche Gold n’est pas un état final. C’est un flux. Chaque nouveau chantier IA révèle des gaps dans la modélisation Silver, qui remontent vers Bronze pour être comblés. L’approche itérative n’est pas un manque de rigueur - c’est la séquence correcte.

La V0 pragmatique : les identifiants de liaison

Construire une couche data complète prend du temps. Pour une PME de 30 à 40 personnes, la modélisation correcte de toutes les entités demande entre 3 et 6 semaines de travail sérieux. On ne peut pas tout faire avant de déployer le premier agent.

La V0 pragmatique, c’est la cartographie des identifiants de liaison.

Avant toute refonte de stack, avant tout projet de migration, avant tout chantier IA : identifier et documenter les identifiants qui permettent de corréler les données dispersées entre vos outils. L’ID client dans votre CRM correspond-il à l’ID client dans votre ERP ? Votre outil de facturation utilise-t-il le même identifiant que votre outil de ticketing ? La réponse à ces questions coûte une journée de travail. Elle évite des semaines de blocage en production.

Un agent qui peut naviguer entre vos outils via des identifiants documentés - même si les données ne sont pas encore centralisées - peut déjà produire de la valeur. C’est la différence entre un agent qui jongle entre sources hétérogènes (coûteux, lent, fragile) et un agent qui lit une couche cohérente (efficace, rapide, maintenable).

Cette logique rejoint ce qu’Alex Hormozi articule dans son positionnement data de 2025 : on ne peut pas être AI-first sans être data-first. La séquence est non-négociable. Les organisations qui déployent des agents avant d’avoir résolu la couche data paient deux fois : une fois pour construire l’agent, une deuxième fois pour le reconstruire quand les données sont finalement structurées.

Ce qui attend votre organisation de l’autre côté

YC formule l’objectif final ainsi : une “self-improving company” - une organisation qui calibre l’autonomie de ses agents progressivement et se corrige en continu sur la base de signaux mesurés.

C’est accessible. Mais seulement si la couche data est en place.

Le logiciel est éphémère. Un dashboard, un script, un workflow d’automatisation - tout ça peut être régénéré par un modèle IA en quelques minutes à partir d’une spec et d’une base de données. Ce qui est rare et irremplaçable, c’est l’accumulation de données propres, contextualisées et structurées sur la durée. C’est l’actif qui prend de la valeur avec le temps.

Les PME qui ont ce réflexe aujourd’hui construisent un avantage qui se creuse mois après mois. Celles qui déploient des agents sans résoudre la couche data déploient des agents dont la valeur est plafonnée dès le premier jour.

La question n’est pas “quel agent déployer en premier ?”. La question est “est-ce que mes données permettent à un agent de travailler efficacement ?” Si la réponse est non, le premier chantier est là.


FAQ

Pourquoi mes agents IA passent-ils autant de temps à chercher les données ?

Parce que la donnée est dispersée entre vos outils sans identifiant commun. L’agent doit naviguer entre CRM, ERP, Slack, emails pour reconstituer une information qui devrait exister en un seul endroit. Avant de déployer un agent, il faut que les entités (clients, commandes, produits) soient centralisées et joignables.

Qu’est-ce qu’une organisation queryable par l’IA ?

C’est une organisation où chaque action produit un artefact structuré qu’un agent peut exploiter : compte-rendu de réunion enregistré, décision documentée dans un outil central, metric disponible dans une base de données accessible. À l’inverse, une décision prise par message Slack ou une réunion sans trace est une information perdue pour l’IA.

Faut-il tout centraliser avant de commencer un projet IA ?

Non. La bonne séquence est itérative : modélisez les entités du premier chantier, laissez les chantiers suivants révéler les gaps. Ce qui est non-négociable en revanche, c’est d’identifier les identifiants de liaison entre vos outils avant de commencer - c’est la V0 qui permet à un agent de naviguer sans tout refondre.

Quelle est la différence entre entités et activités dans une couche data IA ?

Les entités sont mutables : un client change d’adresse, un produit change de prix. Les activités sont immuables : une commande passée, une validation signée, une analyse produite ne s’éditent pas, elles s’ajoutent. Cette distinction structure naturellement une base de données agentique et crée un audit trail sans effort supplémentaire.

Combien de temps prend la modélisation d’une couche data pour une PME ?

Pour une PME de 30 à 40 personnes, modéliser correctement toutes les entités prend entre 3 et 6 semaines. L’erreur fréquente est de vouloir tout modéliser avant de déployer la première action. L’approche pragmatique : commencer par les entités du premier chantier prioritaire, puis itérer.

Vous voulez avancer ?

On construit les systèmes IA
que vos équipes pilotent.

Deux praticiens IA-natifs. Des résultats tangibles, chaque semaine.