Vers un écosystème ouvert
pour une science transparente et vérifiable
à l’ère de l’IA agentique

Journée de lancement du défi transverse « IA génératives pour les sciences » Auditorium Marie Curie, Siège du CNRS, Paris · 24 juin 2026

François

François Lanusse

CNRS Terre et Univers ·

Cofondateur de Lightcone Research

AISSAI — CNRS Berkeley Institute for Data Science

2026 : l’IA accélère déjà la production scientifique

Matthew Schwartz × Claude — Vibe Physics

M. D. Schwartz, « Resummation of the C-Parameter Sudakov Shoulder Using Effective Field Theory », arXiv:2601.02484 (2026)

Accelerating scientific discovery with Co-Scientist — Nature 2026
A multi-agent system for automating scientific discovery — Nature 2026

Deux systèmes « co-scientifiques » publiés dans Nature — mai 2026

Les harnais agentiques accélèrent déjà la recherche

Des outils prêts à l’emploi — Claude Code, Codex — démultiplient la productivité des chercheurs.

“Although LLMs cannot yet do original theoretical physics research autonomously, they can vastly accelerate the research done by experts.” — Matthew Schwartz (Harvard), Vibe Physics, Anthropic 2026

Au-delà des outils génériques : les « co-scientifiques » dédiés

2025 fut aussi l’année des systèmes co-scientifiques dédiés, dont deux publiés dans Nature (mai 2026) : l’AI Co-Scientist de Google (sur Gemini), qui a proposé de nouvelles cibles thérapeutiques contre la fibrose hépatique, et Robin (FutureHouse), qui a identifié un candidat-médicament contre la DMLA atrophique — chacun générant et affinant ses hypothèses en boucle fermée.

Retour d’expérience personnelle

NeurIPS 2025

Weak Lensing Uncertainty Challenge

Compétition ouverte sur la mesure du cisaillement gravitationnel faible — l’un des problèmes d’inférence les plus difficiles en cosmologie.

Je travaille sur ce problème depuis 7 ans. On pourrait dire que je suis plutôt expert…

Équipes lauréates — NeurIPS 2025

L’IA progresse vite — ne pariez pas sur « maintenant »

METR Time Horizon — la durée des tâches double tous les ~7 mois, avec Claude Mythos Preview à ≥16 h

METR, Task-Completion Time Horizons (metr.org/time-horizons, instantané mai 2026, CC-BY) — Claude Mythos Preview à ≥16 h.

Une amélioration exponentielle

L’horizon temporel des tâches que l’IA peut accomplir double tous les ~89 jours Les résultats « bruités » ou « moyennement utiles » d’aujourd’hui ne le resteront pas.
Il faut anticiper les capacites des modeles d'ici un an, pas pour ceux d’aujourd’hui.

Le revers : le système scientifique est déjà sous pression

clawRxiv

clawRxiv — des agents IA publient déjà des articles en continu

ICML 2026 — soumissions record

ICML 2026 — 24 371 soumissions, plus du double de 2025

arXiv — politique sur les synthèses et articles de position

arXiv — refuse désormais les synthèses & positions non relues (slop IA)

ICML — violations des règles sur l'usage des LLM en évaluation

Évaluation — des centaines de relecteurs ont enfreint les règles sur les LLM

Science that Compounds: the Need for a New Substrate for Research in the Age of AI

Lanusse & Parker · mai 2026

Dans cette prise de position, publiée le mois dernier, nous imaginons ce futur d’une recherche accélérée, où chaque scientifique travaille avec l’assistance de l’IA.

Notre regard reste résolument optimiste : ce futur peut libérer la curiosité, ouvrir des questions bien plus ambitieuses, et démultiplier le rythme auquel les résultats voient le jour.

Or cette même vitesse rend chaque résultat plus difficile à vérifier : un fossé se creuse entre ce qui est produit et ce qui peut être vérifié.

Dès lors, aucun de ces bénéfices ne se réalisera si l’on ne peut plus distinguer ce qui est digne de confiance, ce sur quoi on peut bâtir, de ce qui ne l’est pas.

… et ce besoin de confiance se pose à chaque étape de la vie d’un résultat :

Quand le scientifique examine ce que son agent vient de produire.

Quand un relecteur doit juger une analyse qu’il n’a pas menée lui-même.

Quand un tiers cherche, plus tard, à reproduire ou prolonger le travail.

La question

Comment établir efficacement
qu’un résultat est digne de confiance ?

Un nouveau substrat pour les résultats scientifiques

Tout part de la forme que prend un résultat scientifique.

Code

Exécutable mais opaque.
Hypothèses enfouies, intention absente.

Chaînon manquant

Décisions, hypothèses,
preuves, provenance

Article

Le format traditionnel.
Lisible mais à pertes — analyse impossible à régénérer.

Un résultat peut être évalué efficacement — par un humain comme par une machine — si trois conditions sont réunies :

Provenance certifiée

Chaque figure, chiffre et affirmation renvoie aux données, au code et aux décisions qui l’ont produit — sans jamais exiger de ré-exécution.

Entièrement observable

Le code, les artefacts, mais aussi chaque décision — estimateur, a priori, seuil, jeu de données — et le raisonnement qui la motive.

Scientifiquement lisible

Organisé autour des affirmations, décisions et idées qui comptent, avec un accès direct aux preuves et au code derrière chaque point.

Chaque résultat devient une fondation solide pour le suivant — une science qui se cumule à l’échelle, robuste à l’accélération de la production scientifique.

Nous lançons

Lightcone Research

Une initiative open-source qui developpe des outils
pour une recherche scientifique robuste à l’ère de l’IA.

UC Berkeley CNRS

L’équipe & la feuille de route

Une initiative internationale et open-source — portée par UC Berkeley et le CNRS, soutenue par le mécénat.

Équipe

François Lanusse

François
Lanusse

CNRS Terre et Univers

Liam Parker

Liam
Parker

UC Berkeley

Alexandre Boucaud

Alexandre
Boucaud

CNRS Physique

Cail Daley

Cail
Daley

CEA Paris-Saclay

Nolan Koblischke

Nolan
Koblischke

Univ. de Toronto

Kangning Diao

Kangning
Diao

UC Berkeley

Kirstie Whitaker

Kirstie
Whitaker

UC Berkeley

Conseillers

Uroš Seljak

Uroš Seljak

Co-directeur, Berkeley Center for Cosmological Physics

Fernando Pérez

Fernando Pérez

Directeur, Berkeley Institute for Data Science

Kyle Cranmer

Kyle Cranmer

Directeur, Data Science Institute, Univ. Wisconsin–Madison

Centres associés

Berkeley Institute for Data Science AISSAI

Soutien philanthropique

Eric & Wendy Schmidt

Eric & Wendy Schmidt

Jalons

Mi‑janvier 2026
Genèse du projet

Mai 2026
Lancement du projet

28–31 juillet 2026
Agentic AI for Science Developer Summit · Berkeley

Septembre 2026
Première version stable

Q4 2026
Agentic AI for Science Developer Summit · Paris

Deux directions complementaires

Combler le fossé d’adoption de l’IA en science

Anthropic Economic Index — Figure 2 : capacité théorique vs usage observé de l'IA

Anthropic, Economic Index (2026) — capacité théorique de l’IA (bleu) vs. usage réel observé (rouge). Le fossé reste immense.

Des outils qui renforcent les scientifiques, sans les remplacer.

La provenance et la documentation décrites — produites sans effort.

Ajustés au calcul et à l’analyse de données, dans de nombreux domaines.

Bâtir des fondations ouvertes pour la science de demain

Edison Scientific — Kosmos world model : trace d'exploration d'un projet de recherche

Edison Scientific, « Kosmos » (arXiv:2511.02824) — le world model : la trace d’exploration d’un projet de recherche.

Un standard ouvert, et non une plateforme fermée et propriétaire.

Placer le CNRS et la France à l’avant-garde de ces nouveaux standards.

D’autres acteurs avancent déjà — une solution ouverte doit émerger la première.

Un écosystème en couches

FUTUR

Plateforme — hébergement & partage

BIENTÔT

Interface — visualisation des analyses

ALPHA — TECH PREVIEW

Couche agent — plugin Claude pour la recherche assistée par IA

ALPHA — TECH PREVIEW

CLI & outils — validation, exécution, workflows, HPC

ALPHA — NOYAU

ASTRA — Agentic Schema for Transparent Research Analysis — format de spécification central

Tout repose sur ASTRA — la spécification déclarative qui capture l’intention scientifique d’une analyse. Les couches au-dessus lisent et écrivent dans cette source unique de vérité.

La spécification

Spécification complète, exemples et guide de contribution :

astra‑spec.org

Open source

BSD 3-Clause · co-développé ouvertement avec la communauté scientifique.

github.com/LightconeResearch

Tech Preview

ASTRA

Agentic Schema for Transparent Research Analysis

v0.0.10 · alpha

Notre spécification ouverte pour structurer la recherche computationnelle — des analyses inspectables, reproductibles et lisibles, pour les humains comme pour les agents.

Un rapide tour d’horizon du schéma.

Inputs · Outputs · Décisions

Chaque spécification déclare ce dont elle a besoin, ce qu’elle produit, et les choix qu’elle fait.

# astra.yaml — classification Iris, extrait
id: iris_classification
name: "Iris Classification Study"

inputs:
  - id: iris_data
    type: data
    source: "sklearn.datasets.load_iris"

outputs:
  - id: accuracy
    type: metric
    recipe:
      command: python src/evaluate.py
  - id: confusion_matrix
    type: figure

decisions:
  scaling:
    label: "Feature Scaling"
    default: standard
    options:
      none:     { label: "No Scaling" }
      standard: { label: "StandardScaler" }
      minmax:   { label: "MinMaxScaler" }

  model:
    label: "Classification Model"
    default: random_forest
    options:
      svm:           { label: "Support Vector Machine" }
      random_forest: { label: "Random Forest" }
      logistic:      { label: "Logistic Regression" }

Inputs

Sources de données ou références à d’autres analyses ASTRA (type: analysis). Ainsi les projets s’enchaînent.

Outputs

Cinq types — metric, figure, table, data, report. Chacun porte une recipe optionnelle (règle de construction).

Decisions

Des points de choix nommés, avec options, un default et un rationale. Chaque option peut porter sa propre description et des liens vers les preuves à l’appui.

Choisir une option par décision donne un univers — une configuration unique et exécutable.

Acquis antérieurs & découvertes

Chaque affirmation étayée par une preuve — soit une citation de la littérature, soit un artefact produit par l’analyse elle-même.

# Affirmations en entrée et en sortie — même forme, sens différent

prior_insights:
  scaling_svm:
    claim: >-
      Standard scaling consistently outperforms min-max
      normalization for SVMs on tabular data.
    created_at: "2026-03-12T09:00:00Z"
    evidence:
      - id: ev_paper
        doi: "10.48550/arXiv.1706.03762"
        quote:
          exact: "Z-score normalization yielded higher accuracy."
        location: { page: 8 }

findings:
  best_model:
    claim: Random Forest reaches 96.2% with standard scaling.
    created_at: "2026-04-20T17:00:00Z"
    derived: true
    evidence:
      - id: ev_rf_run
        artifact: accuracy       ← sortie de CETTE analyse
        quote:
          exact: "accuracy = 0.962"

decisions:
  scaling:
    options:
      standard:
        insights: [scaling_svm]   ← l’option cite un acquis antérieur

Acquis antérieurs

Connaissances apportées DEPUIS la littérature. Preuve = doi + quote verbatim + ancre de page. Elles éclairent vos décisions.

Découvertes

Connaissances tirées DE l’analyse. Preuve = artifact (une sortie de cette analyse) + quote. Ce que l’exécution a produit.

Modèle commun

Les deux sont le même objet Insightclaim + evidence[]. C’est la position (acquis vs découverte) qui donne le sens.

astra validate --verify-evidence récupère les DOI et vérifie que les citations sont du texte réel. Aucune citation fabriquée.

Tech Preview

Lightcone‑CLI

La couche d’exécution & les compétences agent autour d’ASTRA.

lc init · lc run · lc status · lc verify

Transforme un astra.yaml en exécution imposée et reproductible — et donne à Claude Code un substrat où il ne peut pas fabriquer de résultats.

Les skills disponibles

Chaque projet démarre avec un ensemble de skills Claude Code. Vous pilotez l’agent avec /lc-new, /lc-from-code, /lc-from-paper

Points d’entrée — selon vos besoins

/lc-new — à partir d’une question de recherche

Cadrage interactif : fait émerger les décisions, cherche dans la littérature, extrait des citations vérifiées comme acquis antérieurs, ébauche des univers. Aucun YAML écrit à la main.

/lc-from-code — à partir d’un code existant

Scanne le dépôt, ébauche astra.yaml, paramétre les scripts pour que les décisions puissent varier — la logique existante reste intacte.

/lc-from-paper — reproduire un article

Reproduction ORIENT → ralph-loop : extrait l’article, vous interroge, clone le code de référence, puis itère ARCHITECT → SPECIFY → LITERATURE → IMPLEMENT → RUN → COMPARE sous une constitution propre à chaque article.

/lc-feedback — signaler un bug

Ouvre une issue GitHub avec la version & le contexte de session attachés automatiquement.

Claude Code

Prise en charge d’autres harnais très bientôt.

De la spécification aux résultats — sans fabrication

L’agent décrit l’analyse. Lightcone-CLI l’exécute — ainsi chaque figure, métrique et table que vous voyez a réellement été produite par le moteur.

# La boucle quotidienne

$ lc init my-analysis
  ✓ génère astra.yaml, recipes, universes
  ✓ installe les skills + hooks Claude Code
  ✓ configure le runtime conteneur (auto-détection)

$ lc run                          # matérialise TOUS les outputs
$ lc run accuracy                 # un seul output
$ lc run --universe baseline      # un seul univers
  → DAG Snakemake · dispatch Dask · un conteneur par recipe

$ lc status                       # hors-ligne ; lit seulement les manifests
  accuracy             ok
  confusion_matrix     stale     # recipe / décisions ont changé
  trained_model        missing

$ lc verify                       # parcourt la chaîne de provenance
  → recalcule le sha256 des outputs et inputs
  → signale tampered_data / broken_chain / missing_manifest

Un conteneur par recipe

Chaque recipe s’exécute dans son image déclarée — Docker, Podman ou podman-hpc. lc build pré-construit les tags lc-<proj>-<hash> ; le runtime est auto-détecté ou fixé dans ~/.lightcone/config.yaml.

Dask — du portable au HPC

Snakemake construit le DAG ; les jobs passent toujours par un scheduler Dask. LocalCluster en local sur une station de travail, des workers lancés via srun sous SLURM, ou tout scheduler externe (k8s, jobqueue) via DASK_SCHEDULER_ADDRESS.

Aucun résultat fabriqué

Chaque output est matérialisé via lc run. Un .lightcone-manifest.json par output enregistre code_version, data_version, les hash d’entrée, le SHA git, l’hôte. L’agent ne peut pas inscrire dans une figure un chiffre que le moteur n’a pas produit.

Partez d’un fichier ASTRA.

Claude Code

Démarrons une nouvelle analyse.

Claude

J’initialise le projet avec lc init — le fichier astra.yaml devient la structure durable de votre recherche, aux côtés du code.

terminal
$ lc init my-analysis
✓ astra.yaml créé
✓ projet initialisé
astra.yaml ASTRA
inputs:
decisions:
evidence:
recipes:
outputs:
insights:

Rendez les choix scientifiques explicites.

Claude Code

Quel a priori adopter pour la profondeur optique τ ?

Claude

Je consigne la décision dans astra.yaml — avec ses alternatives et la preuve qui la motive.

DECISION A priori sur la profondeur optique τ
  • Planck low-ℓ EE
  • Libre (non informatif)
  • Fixé τ = 0.054
EVIDENCE citation vérifiée

“The low-ℓ EE polarization likelihood provides the tightest CMB-only constraint on the reionization optical depth, τ = 0.054 ± 0.007.”

Planck Collaboration, 2020 · A&A 641, A6

Exécutez le workflow depuis le fichier ASTRA.

Claude Code

Lance l’analyse.

Claude

lc run — je lis inputs, choix et outputs depuis astra.yaml, puis je produis les résultats selon la même structure.

data.csv
astra.yaml
inputs:
data
decisions:
preprocess: standard
optimizer: adam
metric: rmse
outputs:
figure: plot.py
load.py
preprocess.py
train.py
evaluate.py
plot.py
figure.png

Remontez chaque résultat à travers l’analyse.

Claude Code

D’où vient cette figure ?

Claude

Voici sa provenance complète : ce qui l’a produite, ses inputs, et les choix qui l’ont façonnée.

figure.png
INSPECTOR figure.png
Produit parplot.py
Décisions qui l’impactentpreprocess = standard, model = linear
Étayé par preuve vérifiée
Vient dedata
Provenance trace concordante

À l’épreuve du réel

Premier programme pilote

en cosmologie observationnelle — dans le cadre de la mission DESI


Développer ces outils avec les scientifiques, sur un vrai projet de recherche — pour s’assurer qu’ils tiennent face à la complexité du réel.

Lightcone à l’œuvre sur l’analyse BAO de DESI DR1

arXiv:2404.03000

DESI 2024 III: Baryon Acoustic Oscillations from Galaxies and Quasars.

Rendu interactif du relevé DESI — NOIRLab/DESI

arXiv abstract page for DESI 2024 III: Baryon Acoustic Oscillations from Galaxies and Quasars
Diagramme de Hubble

Lightcone

Hubble diagram reproduced by Lightcone

DESI 2024 III

DESI 2024 III Figure 15 — Hubble diagram
DAG de l’analyse

Des catalogues bruts au diagramme de Hubble.

DESI DR1 LSS catalogs data + 18 randoms fiducial cosmology tabulated z → r(z) RascalC covariances post-recon run_reconstruction.py × 4 parents compute_xi.py post-recon ξ × 8 fit_bao_post.py × 8 MCMC chains make_distance_table.py D_M/r_d, D_H/r_d, D_V/r_d plot_hubble_diagram.py Fig 15 Fig 15 reproduced 840b954 c7bd74a cdc334a 8069d11 1bb61f2 Workflow run verified by Snakemake sha256:b19558d0d64e2333… · reproduced 2026-05-12 decisions smoothing_radius smoothing_radius_qso recon_method decisions s-binning ells decisions broadband damping_prior damping_centers fit_range template_cosmology fitting_method decisions systematic_error_treatment

Pour conclure

Retour d’expérience & besoins

Ce que ce premier pilote nous apprend — et ce dont nous avons besoin pour deployer ces outils au sein de la communauté française.


Pour la recherche française

Besoins en Inférence et Accès aux Modèles

Une solution claire, mutualisée et sûre d’accès à une API d’inférence IA pour les chercheurs — à l’échelle individuelle comme à celle d’un projet. Les cas d’utilisation scientifiques requièrent l’accès à des modèles de pointe.

Calcul scientifique

Faciliter l’accès aux ressources de calcul HPC pour l’exécution de tâches orchestrées par l’IA. À l’heure actuelle, les modèles de sécurité et d’accès aux ressources ne permettent pas l’utilisation de l’IA agentique à sa pleine capacité.

Bonnes pratiques

Un effort coordonné pour collecter et disséminer les bonnes pratiques de l’IA générative — de la formation des doctorants à l’intégration des méthodes dans le processus de recherche.

Partenariats

Promouvoir les partenariats avec les grands laboratoires d’IA, pour développer et déployer des modèles de pointe. Atout français : de grands instituts nationaux qui relient tout l’écosystème de recherche à ces partenaires.

Pour une initiative comme Lightcone Research / Polymathic AI

Postes d’ingénieurs en IA attractifs

Le succès de l’IA moderne est autant une question de recherche que d’ingénierie. Proposer des postes attractifs est décisif pour recruter les talents capables de porter ces projets, dans un secteur extrêmement compétitif.

Merci

pour votre attention


Contact

francois.lanusse@cnrs.fr   ·   lightconeresearch.org
github.com/LightconeResearch   ·   astra‑spec.org