
Article co-écrit avec Nathanaël FIJALKOW
Chercheur CNRS, LaBRI
Post-doc à Oxford, Berkeley, Alan Turing Institute à Londres
Chercheur CNRS depuis janvier 2018, affilié au LaBRI, Université de Bordeaux (génération de code, machine learning, deep learning, grands modèles de langage)
Responsable de l'équipe Synthèse au LaBRI
50+ publications dans des conférences et revues internationales
Best Paper Award at AAAI 2025.
Le suivi des appels d'offres basé sur l'IA transforme des données publiques fragmentées en informations stratégiques exploitables, grâce à l'utilisation de robots d'exploration sémantique et à l'apprentissage automatique pour analyser les cahiers des charges (CCTP), dédupliquer les avis et extraire les exigences cachées parmi des milliers de sources internationales.
Le suivi des appels d'offres a longtemps été une activité manuelle, presque artisanale, reposant sur la lecture des bulletins officiels, des journaux imprimés et des premiers portails institutionnels apparus dans les années 2000. Mais ce modèle, encore viable il y a une dizaine d'années, a été complètement bouleversé par l'augmentation massive du volume d'informations disponibles. En France, il existe aujourd'hui des centaines de sources différentes à surveiller quotidiennement. À l'international, ce nombre explose : plusieurs milliers, voire dizaines de milliers de sources uniques. Chaque pays, chaque région, chaque ministère, chaque service public, chaque agence publique a son propre système, sa propre logique de publication, ses propres formats.
Dans cet environnement fragmenté et ultra-dense, les entreprises doivent identifier, filtrer et analyser très rapidement des informations extrêmement hétérogènes. Le défi n'est plus de trouver les données : elles sont partout. Le défi est maintenant d'identifier l'information pertinente, de la structurer et de la transformer en décisions. C'est là que la Data Intelligence, combinée aux technologies d'intelligence artificielle appliquées à l'analyse des appels d'offres, crée une rupture complète. Elle permet d'automatiser des tâches jusqu'alors inconcevables à grande échelle, en donnant aux organisations un accès instantané à des données publiques mondiales structurées, enrichies et immédiatement utilisables.
Dans ce contexte, les plateformes de veille des appels d'offres basées sur l'IA permettent aux organisations de transformer d'énormes volumes de données publiques en informations structurées et exploitables, améliorant ainsi considérablement l'identification et la hiérarchisation des opportunités d'appels d'offres en France et à l'étranger.
L'explosion du volume de données relatives aux marchés publics a rendu le suivi manuel structurellement impossible, faisant passer l'avantage concurrentiel de la collecte des données à leur interprétation.
Bien avant l'émergence de la Data Intelligence, le suivi des marchés publics reposait sur des tâches simples : feuilleter un journal, consulter manuellement quelques sites web, classer des fichiers PDF dans des dossiers partagés, et peut-être créer un tableau Excel ou une base de données interne. Ce processus s'est effondré sous la pression de l'explosion du volume des données publiques. Aujourd'hui, une organisation qui cherche à surveiller ne serait-ce que cinq grandes régions du monde (Europe, Afrique, Moyen-Orient, Asie, Amériques) est immédiatement confrontée à une avalanche de sources institutionnelles, de portails régionaux, de bulletins municipaux, de sites web d'agences nationales et d'une multitude d'éditeurs en constante évolution.
Chaque source a ses propres formats, règles, niveau de transparence et rythme de publication. Les avis peuvent être publiés quotidiennement, hebdomadairement, irrégulièrement ou même modifiés après coup. Les PDF peuvent être scannés, mal structurés ou dépourvus de métadonnées. Dans un tel contexte, le contrôle manuel est tout simplement devenu impossible, même pour les organisations disposant de ressources importantes. Il ne s'agit pas d'un problème d'organisation, mais d'un problème d'échelle.
L'explosion du volume des données publiques ne s'accompagne pas d'une augmentation proportionnelle de la qualité ou de la normalisation. Au contraire, plus il y a d'informations, plus il y a de bruit et plus il est difficile d'en extraire de la valeur. C'est précisément ce qui rend les technologies modernes de Data Intelligence indispensables.
Voir nos différents articles sur l'identification des appels d'offres en France et à l'international dans les secteurs de l'énergie et des infrastructures :
- Comment trouver des appels d'offres pour des services de conseil en matière d'infrastructures et d'énergies renouvelables en Afrique
- Comment identifier les appels d'offres internationaux dans le secteur de l'énergie
– Comment identifier les opportunités dans le domaine des infrastructures énergétiques en France
- Comment identifier les appels d'offres et les projets photovoltaïques en France
– Comment identifier les appels d'offres internationaux dans le secteur de l'énergie en Afrique
– Comment suivre les appels d'offres publics dans le domaine des infrastructures en Europe
– Trouver des appels d'offres de conseil dans le domaine des infrastructures et des énergies renouvelables en Afrique
– Trouver des appels d'offres dans le domaine de l'ingénierie dans le secteur énergétique africain
Les robots d'indexation intelligents de nouvelle génération utilisent la reconnaissance de modèles DOM pour s'adapter en temps réel aux modifications apportées aux sites web, garantissant ainsi une couverture exhaustive de plus de 10 000 sources à travers le monde.
La première étape de cette transformation consiste à automatiser la capture des données publiques à l'aide de crawlers et de scrapers intelligents. Les scrapers de la première génération étaient très basiques : ils visitaient un site web, récupéraient son HTML et l'extrayaient à l'aide de quelques règles prédéfinies. Le problème était que ces systèmes étaient extrêmement fragiles : le moindre changement dans la structure du site web cassait tout. De plus, ils étaient incapables de comprendre la logique éditoriale d'un site, et encore moins de distinguer les avis d'appel d'offres des simples articles d'actualité.
La nouvelle génération de robots d'indexation, conçue pour le suivi des appels d'offres à grande échelle, fonctionne de manière totalement différente. Ils analysent les structures DOM, détectent automatiquement les schémas caractéristiques des avis d'appel d'offres, identifient les sections pertinentes, adaptent leurs règles lorsque le site change, reconstituent la logique même lorsque les pages sont modifiées et reconnaissent des structures que le développeur n'a jamais vues. Il s'agit de systèmes dynamiques, capables d'explorer rapidement des milliers de sources, de contourner les obstacles techniques (CAPTCHA, redirections, sites multilingues) et de s'adapter à l'extrême diversité du Web public mondial.
Grâce à ces architectures, les entreprises peuvent pour la première fois "voir" l'écosystème complet des publications d'appels d'offres, non seulement en France mais aussi dans des régions historiquement complexes comme l'Afrique de l'Ouest, le Moyen-Orient ou certaines parties de l'Asie. La collecte est devenue évolutive, elle est désormais industrialisable.
La véritable avancée de l'IA dans le domaine des achats réside dans l'« interprétation de domaine », c'est-à-dire la capacité à extraire des variables techniques telles que la puissance solaire (MWc) ou les normes de recharge des véhicules électriques directement à partir de fichiers PDF non structurés.
La collecte d'informations ne résout pas le problème. Les entreprises ne veulent pas seulement voir les appels d'offres : elles veulent les comprendre, les qualifier, les classer par ordre de priorité et en extraire immédiatement des informations clés. C'est là que l'intelligence artificielle appliquée aux appels d'offres joue un rôle central.
Un modèle d'IA, même très sophistiqué, ne peut produire de bons résultats que s'il a accès à un ensemble de données volumineux, propre et représentatif. Dans le domaine des marchés publics, cela implique de disposer de données historiques comprenant :
- plusieurs centaines de milliers d'appels d'offres,
- répartis par pays, régions et pouvoirs adjudicateurs,
- couvrant les années de publication,
- dans tous les formats existants,
- avec une grande diversité de vocabulaire, d'expressions et de structures.
Pourquoi est-ce essentiel ?
Parce que chaque pays a sa propre façon de rédiger un appel d'offres, ses propres formulations juridiques, ses propres métadonnées, et même ses propres habitudes d'écriture. Un modèle formé uniquement sur des données françaises serait incapable d'interpréter correctement un appel d'offres émis en Égypte, au Kenya, en Colombie ou au Vietnam.
La qualité des données historiques est donc une exigence non négociable pour un modèle performant.
Un appel d'offres n'est pas un simple texte. C'est un objet administratif, juridique et technique, et l'IA doit en extraire trois couches distinctes.
Il s'agit d'éléments structurels : date de publication, délai, nom de l'acheteur, lieu d'exécution, type de procédure, type de marché (travaux, fournitures, services).
Ces éléments sont essentiels pour classer correctement les appels d'offres et fournir une base structurée aux moteurs de recherche.
Remarque : les informations générales et administratives sont, dans la plupart des cas, fournies explicitement par les pouvoirs adjudicateurs et sont donc directement accessibles par exploration, extraction de données ou, le cas échéant, via les API des plateformes. Ces champs étant « codés en dur », leur extraction ne nécessite généralement pas d'algorithmes sophistiqués, contrairement aux informations juridiques ou techniques, dont l'interprétation est bien plus complexe.
Ils déterminent s'il est possible de faire une offre.
Ils comprennent les visites obligatoires du site, les pénalités de retard, les conditions de renouvellement, les exigences de cautionnement, les obligations de certification et les critères d'évaluation pondérés.
Ces détails sont souvent enfouis dans des annexes ou des paragraphes difficiles à détecter. L'extraction automatique nécessite un modèle spécialement formé pour reconnaître des modèles juridiques complexes.
C'est là que réside l'essentiel de la valeur.
Ce sont les données les plus difficiles à extraire, car elles se trouvent généralement dans le CCTP (spécifications techniques), le règlement de l'appel d'offres ou de grandes annexes techniques.
Exemple : photovoltaïque
Un modèle expert doit être capable d'extraire :
- puissance totale du projet,
- nombre de panneaux,
- surface utilisable,
- type de site (auvent, toit, montage au sol),
- présence de systèmes photovoltaïques,
- distance par rapport au point de connexion au réseau le plus proche,
- type de terrain (friche industrielle, sol pollué, terre agricole, etc.).
Exemple : stations de recharge
Un modèle doit extraire la puissance de recharge (CA, CC, ultra-rapide), le nombre d'unités, le type d'installation, les normes requises, les modalités d'entretien et les contraintes du site.
Ces éléments d'information ne peuvent être extraits que par des modèles spécifiquement formés aux données techniques. Il ne s'agit pas d'une simple reconnaissance de texte, mais d'une interprétation du domaine.
Il convient également de noter que les DCE, et par conséquent les CCTP, ne sont pas toujours directement accessibles. Les acheteurs exigent souvent que les fournisseurs s’inscrivent avant de pouvoir télécharger les documents d’appel d’offres. Cela pose un problème majeur : certaines informations techniques, bien qu’essentielles, ne peuvent pas être récupérées automatiquement et ne peuvent donc pas être analysées.
Un autre défi souvent sous-estimé est le coût du traitement. Lorsque l'on fait appel à des modèles de langage généraux (LLM) tels que Gemini, Claude, Mistral ou ChatGPT pour analyser des documents, les résultats peuvent être excellents, mais chaque analyse nécessite un appel API payant. À l'échelle mondiale, avec des milliers, voire des dizaines de milliers de documents par jour, cela devient d'un coût prohibitif.
C'est pourquoi le secteur a besoin de modèles natifs, optimisés, légers et économiquement viables, capables de traiter de grands volumes de documents sans faire exploser les coûts.
C'est aussi pourquoi ce métier ne s'improvise pas. Il nécessite des années de R&D continue, souvent en partenariat avec des entreprises technologiques ou des laboratoires universitaires spécialisés dans l'IA, pour créer des modèles propriétaires adaptés aux formats spécifiques, aux contraintes légales et à la diversité technique des documents d'appel d'offres.

L'IA apporte le plus de valeur ajoutée lorsqu'elle est appliquée à des secteurs hautement techniques impliquant une documentation complexe. Dans des domaines tels que les marchés publics relatifs aux infrastructures de pipelines et de réseaux (eau potable, eaux usées, systèmes de transport de fluides) ou les appels d’offrespublics relatifs aux infrastructures ferroviaires ( voies, signalisation, travaux de génie civil, maintenance), les appels d’offres pertinents sont souvent noyés dans des avis génériques, mal classés par codes CPV ou décrits de manière incohérente par les pouvoirs adjudicateurs. L'analyse sémantique permet d'identifier ces projets en se basant sur le contenu réel des avis d'appel d'offres et des documents de passation de marché, en détectant la terminologie technique, les typologies de travaux et les phases de projet que les recherches par mots-clés ou le filtrage CPV seuls manquent souvent. Cette capacité est essentielle pour mettre en place un processus de veille fiable dans des secteurs complexes, où la valeur ne réside pas dans le volume, mais dans la capacité à isoler les appels d'offres qui sont véritablement pertinents et réalistement accessibles, tant en France qu'à l'international.
Cette capacité d'analyse avancée est également essentielle pour suivre les appels d'offres dans des domaines techniques liés aux infrastructures et à l'énergie, où le périmètre des projets est souvent transversal et mal défini dans les avis d'appel d'offres. Appels d'offres liés aux pompes à chaleur, les appels d'offres en matière de rénovation énergétique, appels d'offres publics pour l'éclairage public, ainsi que les appels d'offres liés à la surveillance et au contrôle environnementaux, combinent souvent des travaux de construction, des services d'ingénierie, des systèmes de contrôle, des capteurs, des obligations réglementaires et des exigences de performance. Ces contrats peuvent être publiés sur différentes plateformes, intégrés dans des contrats-cadres plus larges ou décrits de manière très hétérogène. L'analyse sémantique des avis d'appel d'offres et des documents techniques permet donc d'identifier avec précision ces appels d'offres, au-delà des classifications CPV ou des recherches par mots-clés génériques, et de repérer les opportunités qui sont véritablement pertinentes pour les entreprises spécialisées.
Les modèles propriétaires de Deepbloo sont entraînés à partir d'un ensemble de données historiques couvrant plusieurs années et comprenant des millions de documents techniques, ce qui leur permet d'atteindre une précision de 95 % dans l'extraction de variables complexes, telles que le type de sol pour les parcs éoliens ou les distances de raccordement au réseau, pour un coût bien inférieur à celui des grands modèles de langage (LLM) généralistes.
Data Intelligence fait office de filtre stratégique, neutralisant le « bruit informationnel » généré par plus de 300 plateformes françaises afin d'identifier les appels d'offres les plus prometteurs.
Jamais auparavant autant de données publiques n'ont été disponibles. Mais cette abondance n'est pas une solution : c'est un problème. Le bruit est devenu immense et la valeur est enfouie sous des océans de textes, de PDF scannés, de documents incohérents et de publications parfois redondantes.
La Data Intelligence change tout. Elle filtre, normalise, enrichit et interprète les données pour :
- réduire drastiquement le bruit,
- identifier rapidement les opportunités pertinentes,
- comprendre les contraintes techniques et légales en quelques secondes,
- rendre les données consultables et exploitables,
- améliorer la prise de décision commerciale.
Il s'agit d'une transformation stratégique, et pas seulement technologique.
Deepbloo est l'une des rares entreprises capables d'appliquer l'intelligence des données et l'IA à ce niveau de profondeur dans les marchés publics, en particulier dans l'énergie et les infrastructures.
Pour les entreprises opérant spécifiquement sur le marché français, le plateforme Deepbloo France permet de centraliser les appels d'offres nationaux et locaux, d'analyser les documents techniques relatifs aux marchés publics et de mettre en place un suivi avancé spécifique à chaque secteur sur les marchés de l'énergie, des infrastructures et de l'environnement.
Vous pouvez découvrir une analyse détaillée sur la manière d'identifier les projets d'énergie renouvelable en France ( et sur la façon dont la plateforme peut vous aider) en consultant notre article dédié.
Grâce à plusieurs années d'exploration mondiale intensive, Deepbloo a construit l'un des plus grands ensembles de données dédiés aux appels d'offres dans le domaine de l'énergie et des infrastructures, contenant des centaines de milliers de publications historiques et des millions de documents techniques provenant de dizaines de pays.
Cette profondeur de données est un atout unique pour l'entraînement de modèles vraiment performants.
Deepbloo a développé sa technologie en étroite collaboration avec des institutions académiques de premier plan :
– Le LaBRI (Laboratoire d'informatique de Bordeaux), l'un des plus grands laboratoires d'informatique de France.
– Le chercheur Nathanaël Fijalkow, spécialiste de l'IA, de l'apprentissage statistique et de la modélisation de données complexes.
– L'Institut des sciences des données de Montpellier (Université de Montpellier), avec lequel un partenariat a été lancé en 2025 afin de développer une nouvelle génération d'algorithmes d'analyse automatique des dossiers d'appel d'offres.
Ces collaborations permettent d'intégrer dans nos modèles des approches avancées en matière de structuration de textes, de reconnaissance automatique d'entités complexes et de classification technique.
Les pipelines technologiques de Deepbloo permettent de transformer les données brutes en intelligence opérationnelle.
- pour saisir automatiquement des appels d'offres provenant de milliers de sources,
- d'analyser des documents à l'aide de modèles spécialisés,
- pour extraire des informations techniques, juridiques et administratives,
- pour structurer les données dans un format standardisé,
- pour le rendre instantanément consultable par un moteur sémantique expert.
Pour les entreprises, il s'agit d'un changement de paradigme. Elles passent d'un suivi lent, incomplet et réactif à un système automatisé, exhaustif et intelligent, capable de détecter instantanément les appels d'offres pertinents et d'en extraire des informations clés.
Deepbloo a également été invitée à présenter son approche basée sur l'IA, qui repose sur de petits modèles agiles spécialement formés à l'analyse des appels d'offres, lors de l'événement Dataquitaine. Voici la vidéo de cette présentation.
Demandez une démo ici.
Le suivi des appels d'offres est devenu un enjeu crucial dans un monde où les données publiques se multiplient et où la concurrence internationale s'intensifie. Les méthodes manuelles ne peuvent plus suivre l'ampleur, la diversité et la complexité des publications. Seules des approches basées sur la Data Intelligence, des modèles d'IA spécialisés et une expertise sectorielle approfondie le permettent désormais :
- pour couvrir un périmètre global,
- pour extraire les signaux pertinents du bruit,
- pour analyser automatiquement des documents complexes,
- pour capturer des informations techniques et juridiques essentielles,
- et pour identifier les opportunités au bon moment.
Grâce à ses capacités techniques, à la profondeur de ses données et à ses partenariats scientifiques, Deepbloo est l'un des acteurs les plus avancés dans cette transformation. L'entreprise démontre que l'IA appliquée au suivi des appels d'offres n'est plus futuriste : c'est une réalité opérationnelle qui améliore déjà la performance commerciale de nombreuses organisations en France et dans le monde.
En résumé :
L'atout de Deepbloo : ses partenariats scientifiques avec le CNRS et le LaBRI lui assurent une avance technologique dans le domaine de l'intelligence sémantique appliquée aux marchés publics.
Une IA généraliste peut trouver quelques exemples, mais elle ne dispose pas d'un accès en temps réel à plus de 10 000 portails fragmentés et ne peut pas fournir d'alertes quotidiennes fiables et dédupliquées.
L'IA permet de gagner 90 % du temps de lecture en résumant automatiquement les exigences techniques, les délais et les certifications obligatoires dissimulés dans de longs fichiers PDF.
Les plateformes avancées telles que Deepbloo utilisent des modèles tenant compte de la traduction pour classer les opportunités internationales dans un langage technique harmonisé.
Un même projet est souvent publié sur trois ou quatre portails différents ; l'IA les identifie comme une seule et même opportunité afin d'éviter toute confusion au sein des équipes commerciales.