Fiabilité IA black-box

Les erreurs IA corrigées ne doivent pas mourir dans les logs.

SUPERNOVA–IMMUNE transforme des corrections IA validées en patches comportementaux persistants et mesure si la même famille d’erreurs revient moins souvent sur des cas futurs cachés.

Sans réentraînement modèle. Sans divulgation du code source. Évaluation black-box uniquement.

Demander une évaluation black-box Contact

PATCH

ALLOW

NO_PATCH

REVIEW

Corrections validées en entrée. Cas futurs cachés. Décisions black-box en sortie. Récidive mesurée par l’acheteur.

Problème

Une correction répare une sortie. Elle protège rarement le futur comportement de l’agent.

Les équipes corrigent les erreurs IA à la main. Mais la même famille d’erreurs peut réapparaître ensuite dans les logs, workflows RAG, mémoires vectorielles, tool calls et boucles d’agents.

La question opérationnelle n’est pas seulement de savoir si la prochaine réponse est correcte. C’est de savoir si une correction validée réduit vraiment la récidive future de la même famille d’erreurs.

Workflows RAG Mémoire vectorielle Tool calls Boucles agents Logs entreprise

Solution

Des patches comportementaux persistants contre les familles d’erreurs récurrentes.

SUPERNOVA–IMMUNE est conçu pour transformer des corrections validées en patches comportementaux persistants, puis évaluer si les erreurs similaires reviennent moins souvent sur des cas futurs cachés.

Correction validée

Une erreur IA corrigée devient un signal opérationnel structuré.

Patch comportemental

La famille d’erreurs est convertie en garde-fou réutilisable.

Cas futurs cachés

L’acheteur garde les cas futurs et leurs labels pendant l’évaluation.

Récidive mesurée

L’acheteur compare récidive, faux blocage et préservation des bons cas.

PATCH

Une erreur récurrente, une conversion dangereuse ou une action non supportée est détectée.

ALLOW

L’affirmation forte ou l’action est réellement autorisée dans son périmètre.

NO_PATCH

Le cas est bénin et aucun patch lié à la récidive ne doit se déclencher.

REVIEW

Le cas est conflictuel, insuffisamment documenté, ambigu ou à risque.

Pourquoi les approches existantes ne suffisent pas

Une métrique plus précise : la même famille d’erreurs revient-elle ?

Approche	Limite typique	Focus SUPERNOVA
Reflexion / self-correction	Améliore souvent un cas à la fois.	Patches persistants par famille d’erreurs.
Mémoire vectorielle	La similarité n’est pas une prévention de récidive.	Réduction mesurée des familles d’erreurs.
Guardrails lourds	Peuvent réduire les erreurs en bloquant trop large.	Le faux blocage est mesuré explicitement.
Fine-tuning	Lent, coûteux, pas adapté à chaque correction.	Aucun réentraînement requis pour l’évaluation black-box.
LLM-as-judge	Utile pour scorer, pas forcément pour patcher le comportement futur.	Les corrections deviennent des garde-fous opérationnels.

Évaluation

L’acheteur garde les labels cachés.

Nous ne demandons pas aux acheteurs de croire notre benchmark. Nous leur proposons de tester la réduction de récidive sur leurs propres cas cachés.

Vous fournissez des erreurs IA déjà corrigées.
Vous gardez vos cas futurs et labels cachés.
SUPERNOVA renvoie uniquement des décisions black-box et codes de raison publics.
Vous comparez avec vos propres baselines.
Vous mesurez récidive, faux blocage et préservation des bons cas.

FRR

Failure Recurrence Reduction

La même famille d’erreurs revient-elle moins souvent ?

FIR

False Inhibition Rate

Le système évite-t-il de bloquer les bons cas ?

PCP

Positive Case Preservation

Les vrais cas positifs restent-ils autorisés ?

Signaux actuels

Des signaux exploratoires, pas encore une validation client indépendante.

Benchmark interne v0.4 : signal fort de réduction de récidive, faible faux blocage, haut succès utile.

Stress-tests Grok black-box : labels cachés jusqu’aux prédictions, forte performance exploratoire sur lots adversariaux, tests conflits et REVIEW réalisés.

Les casebooks, labelbooks et logs de décision détaillés restent confidentiels. La prochaine étape est une validation client indépendante.

Parcours commercial

Orienté acquisition. Pas un SaaS public.

SUPERNOVA–IMMUNE n’est pas proposé comme SaaS public, licence locative ou API en libre-service.

Nous sommes ouverts à une acquisition stratégique, un transfert technologique exclusif, une évaluation black-box orientée acquisition et une due diligence sous NDA.

Le code source et le moteur interne ne sont pas divulgués avant un processus transactionnel avancé.

Confidentiel par conception

Le site explique la valeur, pas le moteur.

Nous ne publions pas le code source, les champs de récepteurs, la logique de génération des patches, le scoring interne, les casebooks complets, les labelbooks complets ou les heuristiques internes.

Les éléments techniques détaillés sont disponibles uniquement sous NDA et dans un processus avancé d’acquisition ou de due diligence.

FAQ

Est-ce un guardrail ?

Non. Un guardrail lourd bloque souvent des catégories larges. SUPERNOVA mesure si une famille d’erreurs corrigée revient moins souvent sur des cas futurs cachés.

Faut-il accéder au modèle ?

Non. L’évaluation peut se faire en black-box. L’acheteur garde les labels cachés et score localement.

Faut-il réentraîner le modèle ?

Aucun réentraînement n’est nécessaire pour l’évaluation black-box.

Que reçoit l’acheteur ?

Des décisions black-box, des codes de raison publics et des résultats agrégés. Le moteur reste confidentiel.

Demander une évaluation black-box

Pour acquisition, évaluation ou transfert technologique : contact@supernova-immune.com

Évaluations black-box : evaluation@supernova-immune.com