June 2026Juni 2026 Theme: Eval & ObservabilityThema: Eval & Observability ~2,425 wordsca. 2.425 Worte

Evaluation and Observability for Production AI Agents: From Demos to Auditable Runtime Evaluation und Observability fuer produktive AI-Agenten: Vom Demo zur auditierbaren Runtime

May ended with two signals pointing at the same gap. Gartner reframed its 40-percent agentic-failure prediction around binary governance. Google and Anthropic shipped Agent Observability, autorater evals, and a measurable honesty metric. June is the month enterprises stop asking whether to instrument agents and start arguing about which traces, which judges, and who owns the dashboard. Der Mai endete mit zwei Signalen, die auf dieselbe Luecke zeigen. Gartner ordnet die 40-Prozent-Versagensprognose um die Diagnose binaere Governance neu. Google und Anthropic shippen Agent Observability, Autorater-Evals und eine messbare Honesty-Metrik. Im Juni hoert die Diskussion auf, ob Agenten instrumentiert werden muessen, und beginnt darum, welche Traces, welche Judges, und wer das Dashboard betreut.

TL;DRTL;DR

Agent governance moved from a policy question to a runtime question this month. Gartner's 26 May briefing reframed the well-known 40-percent failure prediction around a single root cause: enterprises treat governance as binary (locked down or fully trusted) and only discover the gap after a production incident. The fix is graduated controls wired into the trace, not a new committee. Agent-Governance ist im Mai von einer Policy- zu einer Runtime-Frage geworden. Das Gartner-Briefing vom 26. Mai rahmt die 40-Prozent-Versagensprognose um eine einzige Ursache: Unternehmen behandeln Governance binaer (verriegelt oder voll vertraut) und entdecken die Luecke erst nach einem Vorfall. Die Antwort sind abgestufte Controls im Trace, kein neues Komitee.

The vendor stack is converging on one pattern: OTel-compliant traces plus inline evaluation. Google's Gemini Enterprise Agent Platform shipped Agent Observability with OTel-standard telemetry and multi-turn autoraters scoring live traffic. Anthropic's Opus 4.8 (28 May) was sold on a measurable honesty metric: 3.7 percent uncritical-flaw passthrough, down from 19.7 percent. Both moves push the same idea: ship the eval with the model. Der Vendor-Stack konvergiert auf ein Muster: OTel-konforme Traces plus Inline-Eval. Googles Gemini Enterprise Agent Platform liefert Agent Observability mit OTel-Telemetrie und Multi-Turn-Autoratern, die Live-Traffic scoren. Anthropics Opus 4.8 (28. Mai) wird ueber eine messbare Honesty-Metrik verkauft: 3,7 Prozent unkritischer Flaw-Durchlauf statt 19,7 Prozent. Beide Bewegungen schieben dieselbe Idee: liefere die Eval mit dem Modell.

The market is voting with capital. ClickHouse paid an undisclosed sum for Langfuse in January and immediately raised a 400 million dollar Series D at a 15 billion dollar valuation. Arize processes a trillion spans per month. The LLM-observability line item is real budget now, not a side project. Der Markt stimmt mit Kapital ab. ClickHouse hat Langfuse im Januar uebernommen und sofort eine 400-Millionen-Dollar-Series-D bei 15 Mrd. Dollar Bewertung geschlossen. Arize verarbeitet eine Billion Spans pro Monat. LLM-Observability ist als Budget-Position angekommen, kein Side-Project mehr.

The evaluation gap is the second-most-cited blocker to graduating pilots: 89 percent of teams have observability, 52 percent run proper evaluations. Quality is the top barrier for 32 percent of enterprise leaders. Teams that have traces but no scoring are flying with the windows open and the instruments off. Die Eval-Luecke ist der zweitgroesste Blocker beim Sprung in Produktion: 89 Prozent der Teams haben Observability, 52 Prozent betreiben echte Evaluation. Qualitaet ist fuer 32 Prozent der Enterprise-Leader die Top-Huerde. Wer Traces ohne Scoring betreibt, fliegt mit offenen Fenstern und abgeschalteten Instrumenten.

Concrete action this month: pick one production agent, instrument it against OTel GenAI semantic conventions, define three rubric-based scorers (task success, tool-call correctness, harm) and run them online against live traffic. Everything else (control tower, policy library, AI Act post-market plan) is downstream of having a trace you can score. Konkrete Aktion fuer diesen Monat: einen produktiven Agenten auswaehlen, gegen die OTel-GenAI-Semantic-Conventions instrumentieren, drei Rubrik-basierte Scorer definieren (Task-Erfolg, Tool-Call-Korrektheit, Harm) und online gegen Live-Traffic laufen lassen. Alles andere (Control Tower, Policy-Bibliothek, AI-Act-Post-Market-Plan) folgt darauf, einen scorebaren Trace zu haben.

Numbers that anchor the monthZahlen, die den Monat verankern

89% / 52%
Teams in production with observability vs. proper evaluation (LangChain State of Agent Engineering 2026)Teams in Produktion mit Observability vs. echter Evaluation (LangChain State of Agent Engineering 2026)
40%
Of enterprises will demote or decommission autonomous agents by end of 2027 (Gartner, 26 May 2026)Der Unternehmen stufen autonome Agenten bis Ende 2027 zurueck oder schalten sie ab (Gartner, 26. Mai 2026)
19.7 → 3.7%
Uncritical-flaw passthrough: Claude Opus 4.7 vs. Opus 4.8 (Anthropic, 28 May 2026)Unkritischer Flaw-Durchlauf: Claude Opus 4.7 vs. Opus 4.8 (Anthropic, 28. Mai 2026)
$2.69B
LLM-observability market 2026; projected $9.26B by 2030 at 36.2% CAGRLLM-Observability-Markt 2026; Prognose 9,26 Mrd. Dollar bis 2030 bei 36,2 Prozent CAGR
15% → 50%
Gartner forecast: LLM-observability investment in GenAI deployments, 2026 to 2028Gartner-Prognose: LLM-Observability-Invest in GenAI-Deployments, 2026 bis 2028
25%
Shorter telco repair times at Vodafone and Deutsche Telekom with Google-backed agentic network operationsKuerzere Telco-Reparaturzeiten bei Vodafone und Deutsche Telekom mit Google-gestuetzten agentischen Network-Ops

The evaluation gap: traces are widely shipped, scoring is notDie Eval-Luecke: Traces sind verbreitet, Scoring nicht

What is happening (the signal of the month)Was passiert (das Signal des Monats)

Two things happened in May that, taken together, change the conversation for any AI transformation programme. First, Gartner's 26 May press release went out of its way to clarify that the headline 40-percent figure is not really about cost or hype. It is about governance miscalibration: enterprises treating every agent the same regardless of autonomy and blast radius, which produces both heavy-handed lockdowns that kill value and naive deployments that fail loudly. Shiva Varma's framing (either locked down or fully trusted, and that is the root cause of failure) is a useful sentence to bring into a steering committee.

Zwei Dinge sind im Mai passiert, die zusammen die Diskussion fuer jedes AI-Transformations-Programm veraendern. Erstens hat sich die Gartner-Pressemitteilung vom 26. Mai die Muehe gemacht klarzustellen, dass die 40-Prozent-Headline nicht eigentlich von Kosten oder Hype handelt. Es geht um eine Governance-Fehlkalibrierung: Unternehmen behandeln jeden Agenten gleich, unabhaengig von Autonomie und Blast-Radius, und produzieren damit zwei Failure-Modes parallel, zu harte Lockdowns toeten Werte, naive Deployments knallen sichtbar. Shiva Varmas Satz (entweder eingesperrt oder voll vertraut, und genau das ist die Ursache) ist eine brauchbare Zeile fuers Lenkungskreis-Meeting.

Second, the platform vendors shipped the implied answer. Google's Gemini Enterprise Agent Platform, generally available across Cloud Next 26, ships Agent Observability and Agent Evaluation as first-class components, with OTel-compliant telemetry and multi-turn autoraters that score live traffic. Anthropic shipped Claude Opus 4.8 on 28 May with the marketing focused not on the benchmark crown but on a measurable behavioural change: uncritical-flaw passthrough fell from 19.7 percent (4.7) to 3.7 percent (4.8). That is an eval result, not a feature.

Zweitens haben die Plattform-Vendoren die implizite Antwort geshippt. Googles Gemini Enterprise Agent Platform, allgemein verfuegbar seit Cloud Next 26, bringt Agent Observability und Agent Evaluation als First-Class-Komponenten, mit OTel-konformer Telemetrie und Multi-Turn-Autoratern, die Live-Traffic scoren. Anthropic hat am 28. Mai Claude Opus 4.8 ausgeliefert, und das Marketing zielte nicht auf die Benchmark-Krone, sondern auf eine messbare Verhaltensaenderung: der unkritische Flaw-Durchlauf fiel von 19,7 Prozent (4.7) auf 3,7 Prozent (4.8). Das ist ein Eval-Ergebnis, kein Feature.

The signal of the month is therefore a phase change, not a launch. Agent observability and evaluation are no longer the AgentOps niche. They are the next layer of the platform stack, and the platforms are now shipping them on the user's behalf. The transformation question shifts from do we need this to how do we plug into it, who owns the eval suite, and what does it mean for our AI Act documentation in August.

Das Signal des Monats ist also ein Phasenwechsel, kein Launch. Agent-Observability und Evaluation sind nicht mehr die AgentOps-Nische. Sie sind die naechste Schicht des Plattform-Stacks, und die Plattformen liefern sie inzwischen fuer den Nutzer aus. Die Transformations-Frage verschiebt sich von brauchen wir das hin zu wie docken wir an, wer betreut die Eval-Suite, und was bedeutet das fuer unsere AI-Act-Dokumentation im August.

From the weekly log: how this theme moved over four weeksAus dem Weekly-Log: wie das Thema vier Wochen lang gewandert ist

04 May 2026

The control tower thesis arrives. Sierra's 950 million dollar raise at 15.8 billion sat next to ServiceNow and NVIDIA's Project Arc unveiling, an autonomous desktop agent placed explicitly inside an enterprise control tower. The capital and the governance pattern showed up in the same week.

Die Control-Tower-These tritt auf. Sierras 950-Millionen-Runde bei 15,8 Mrd. lag neben dem ServiceNow-NVIDIA-Debuet von Project Arc, einem autonomen Desktop-Agenten, der explizit in einem Enterprise-Control-Tower laeuft. Kapital und Governance-Muster tauchen in derselben Woche auf.

Read the weekly →Weekly lesen →
11 May 2026

Production proof points. Vodafone and Deutsche Telekom reported 25-percent shorter repair times with Google-backed network operations agents, and SAP's Sapphire keynote showed 200-plus agents under a single Joule cockpit. The week's question moved from will it run to how do we watch it.

Produktions-Proof-Points. Vodafone und Deutsche Telekom melden 25 Prozent kuerzere Reparaturzeiten mit Google-gestuetzten Network-Ops-Agenten, SAP zeigt auf der Sapphire 200-plus Agenten unter einem Joule-Cockpit. Die Wochenfrage verschiebt sich von laeuft es zu wie schauen wir hin.

Read the weekly →Weekly lesen →
15 May 2026

The agent platform is named. Google Cloud Next 26 introduced the Gemini Enterprise Agent Platform with explicit Agent Identity, Agent Gateway, and Agent Observability components. Fiserv's agentOS and Amdocs's Gemini Marketplace entry made the same architectural choice: identity plus traces plus eval as the platform, not the application.

Die Agenten-Plattform bekommt einen Namen. Google Cloud Next 26 stellt die Gemini Enterprise Agent Platform mit expliziten Agent-Identity-, Agent-Gateway- und Agent-Observability-Komponenten vor. Fiservs agentOS und Amdocs im Gemini-Marketplace treffen dieselbe Architektur-Entscheidung: Identity plus Traces plus Eval als Plattform, nicht als Applikation.

Read the weekly →Weekly lesen →
26 / 29 May 2026

The warning and the model. Gartner's 26 May briefing called uniform governance the root cause of agentic failure. Three days later, Anthropic shipped Opus 4.8 with the headline metric being honesty (3.7 vs. 19.7 percent uncritical-flaw passthrough). The audit side and the model side both moved toward measurable behaviour.

Die Warnung und das Modell. Gartner benennt am 26. Mai uniforme Governance als Ursache fuer Agenten-Failures. Drei Tage spaeter shippt Anthropic Opus 4.8 mit Honesty als Headline-Metrik (3,7 statt 19,7 Prozent unkritischer Flaw-Durchlauf). Audit-Seite und Modell-Seite bewegen sich beide zur messbaren Beobachtung.

Read the weekly →Weekly lesen →

Why it matters for AI transformation leadersWarum das fuer AI-Transformations-Verantwortliche zaehlt

1. Production-ready means more this quarter1. Production-ready bedeutet diesen Quartal mehr

A year ago, production-ready meant the agent passed a curated evaluation set and went through a security review. In June 2026 it has to include: spans emitted in OTel GenAI semantic conventions, an online evaluation suite scoring at least task success and harm, a guardrail layer that can route blocked tool calls to a human, and a documented post-market monitoring plan that fits Article 72 of the AI Act (template due February, enforcement in August). The vendor platforms make that possible, but they do not make it the default. Someone in the programme has to own the checklist.

Vor einem Jahr hiess production-ready: der Agent ueberlebt ein kuratiertes Eval-Set und geht durch ein Security-Review. Im Juni 2026 muss es enthalten: Spans in OTel-GenAI-Semantic-Conventions, eine Online-Eval-Suite mit mindestens Task-Erfolg und Harm, ein Guardrail-Layer, der blockierte Tool-Calls an Menschen routet, und einen dokumentierten Post-Market-Monitoring-Plan nach AI-Act Art. 72 (Template seit Februar faellig, Vollzug ab August). Die Vendor-Plattformen koennen das, machen es aber nicht zum Default. Im Programm muss jemand die Checkliste besitzen.

2. The buying conversation changes2. Die Beschaffungs-Diskussion veraendert sich

The LLM-observability line is 2.69 billion dollars in 2026 (projection: 9.26 billion by 2030, 36.2 percent CAGR). Gartner expects LLM-observability investments to be present in 50 percent of GenAI deployments by 2028, up from 15 percent in early 2026. That means most enterprise procurement teams will see a new category in 12 to 18 months, and the choice between an open-source self-hosted path (Langfuse, Arize Phoenix) and a managed eval-first vendor (Braintrust, Galileo, Fiddler) becomes a real architectural decision rather than a tooling preference. Telcos and regulated industries will lean toward self-host or sovereign cloud variants for data-residency reasons; Deutsche Telekom's LMOS already builds observability into a sovereign PaaS layer.

Die LLM-Observability-Position liegt 2026 bei 2,69 Mrd. Dollar (Prognose 9,26 Mrd. bis 2030, 36,2 Prozent CAGR). Gartner erwartet, dass LLM-Observability-Investitionen 2028 in 50 Prozent der GenAI-Deployments sind, von 15 Prozent Anfang 2026. Die meisten Enterprise-Procurement-Teams sehen die Kategorie in 12 bis 18 Monaten neu im Katalog, und die Entscheidung zwischen Open-Source-Self-Hosted (Langfuse, Arize Phoenix) und einem Managed-Eval-First-Vendor (Braintrust, Galileo, Fiddler) wird zur echten Architektur-Entscheidung. Telcos und regulierte Industrien tendieren aus Daten-Residenz-Gruenden zum Self-Host oder zum souveraenen Cloud-Pfad; Deutsche Telekoms LMOS baut Observability bereits in eine souveraene PaaS-Schicht ein.

3. The people picture moves3. Die Personalseite verschiebt sich

The discipline being named (AgentOps) is a hybrid of SRE, ML Ops, data engineering and red-teaming. Teams running agents in production are starting to staff a dedicated AgentOps function rather than bolt the work onto the existing ML platform team. For the change-management track of any transformation, that means a new role profile, a new on-call rota, and an updated incident process where the agent looped twice and called the wrong tool is a recognised P2 category, not an unspecified weirdness.

Die Disziplin, die gerade einen Namen bekommt (AgentOps), ist ein Hybrid aus SRE, ML-Ops, Data-Engineering und Red-Teaming. Teams, die Agenten produktiv betreiben, bauen eine eigene AgentOps-Funktion auf, statt die Arbeit dem ML-Platform-Team anzuhaengen. Fuer den Change-Track jeder Transformation heisst das: neues Rollenprofil, neue Rufbereitschaft, und ein Incident-Prozess, in dem der Agent ist zweimal in der Schleife und hat das falsche Tool gerufen eine anerkannte P2-Kategorie wird, keine namenlose Auffaelligkeit.

Concrete patterns observedKonkret beobachtete Muster

OTel as the common substrateOTel als gemeinsame Schicht

The OpenTelemetry GenAI semantic conventions exited experimental for client spans in early 2026. Agent and framework spans are still technically experimental but have stabilised in practice through Q1. Datadog, Honeycomb, New Relic, LangChain, CrewAI, AutoGen and AG2 all emit OTel-compliant spans natively or via instrumentation packages. The pattern: pick an observability backend that consumes OTel and treat agent traces like any other distributed-systems trace, just with extra attributes for tool calls, token usage and reasoning steps.

Die OpenTelemetry-GenAI-Semantic-Conventions sind fuer Client-Spans Anfang 2026 aus dem Experimental-Status. Agent- und Framework-Spans sind formal noch experimentell, aber im ersten Quartal stabil im Einsatz. Datadog, Honeycomb, New Relic, LangChain, CrewAI, AutoGen und AG2 emittieren OTel-konforme Spans nativ oder ueber Instrumentierungspakete. Das Muster: ein OTel-faehiges Observability-Backend waehlen und Agent-Traces wie jeden anderen Distributed-Systems-Trace behandeln, nur mit Extra-Attributen fuer Tool-Calls, Token-Verbrauch und Reasoning-Schritte.

Online evaluation, not just offlineOnline-Eval, nicht nur Offline

The Braintrust slogan evals are the new PRD is more than a vendor line. Online evaluation runs against live production traffic, scoring spans as they are emitted, catching real-world drift, distribution shift, and rare failure modes that no curated set predicts. Production teams in 2026 run both: offline for regression, online for surveillance. Google's Agent Evaluation in the Gemini platform explicitly scores live traffic with multi-turn autoraters. The pattern: eval is no longer a release-day artefact, it is a continuous signal.

Der Braintrust-Slogan evals are the new PRD ist mehr als Marketing. Online-Eval laeuft gegen Live-Traffic, scort Spans im Emit, faengt Drift, Distribution-Shift und seltene Failure-Modes, die kein kuratiertes Set vorhersieht. Produktiv-Teams 2026 laufen beides: Offline fuer Regression, Online fuer Surveillance. Googles Agent Evaluation in der Gemini-Plattform scort Live-Traffic explizit mit Multi-Turn-Autoratern. Das Muster: Eval ist kein Release-Day-Artefakt mehr, sondern ein Dauer-Signal.

LLM-as-a-judge with calibrationLLM-als-Judge mit Kalibrierung

Production consensus has settled into a 90/10 split: LLM judges handle the thousands-per-day volume, humans calibrate. LLM judges agree with human reviewers about 85 percent of the time, comparable to inter-human agreement, but a 2026 RAND study showed no judge is uniformly reliable across benchmarks, with frontier models exceeding 50 percent error rates on challenging bias benchmarks. The pattern: rubric-based scorers with explicit criteria, regular calibration against human-labelled samples, and a hard rule that the judge is never the same model as the system under test.

Der Produktiv-Konsens ist ein 90/10-Split: LLM-Judges machen das Volumen tausende pro Tag, Menschen kalibrieren. LLM-Judges stimmen zu rund 85 Prozent mit Reviewern ueberein, vergleichbar mit Mensch-zu-Mensch-Uebereinstimmung, aber eine RAND-Studie 2026 zeigt: kein Judge ist ueber alle Benchmarks zuverlaessig, Frontier-Modelle haben auf harten Bias-Benchmarks ueber 50 Prozent Fehlerrate. Das Muster: Rubrik-basierte Scorer mit expliziten Kriterien, regelmaessige Kalibrierung gegen menschlich gelabelte Samples, und die harte Regel, dass der Judge niemals dasselbe Modell ist wie der zu bewertende.

Graduated controls, not binary trustAbgestufte Controls statt binaerer Trust

This is Gartner's framing made concrete. Vodafone's VINA and Deutsche Telekom's RAN Guardian both run with autonomy scoped by impact: read-only diagnostics fully autonomous, configuration changes human-approved, customer-facing actions human-in-the-loop. The pattern: define autonomy as a property of the action, not the agent, and let the trace tell you when the action crosses a threshold.

Die Gartner-Diagnose, praktisch gemacht. Vodafones VINA und Deutsche Telekoms RAN Guardian laufen mit Autonomie nach Wirkung: Read-only-Diagnose voll autonom, Konfigurationsaenderungen Human-Approved, kundenwirksame Aktionen Human-in-the-Loop. Das Muster: Autonomie ist eine Eigenschaft der Aktion, nicht des Agenten, und der Trace sagt, wann eine Schwelle ueberschritten wird.

Honesty metrics in the model cardHonesty-Metriken auf der Modellkarte

Anthropic's Opus 4.8 release made a measurable honesty metric (uncritical-flaw passthrough rate) part of the public benchmark suite, with a ten-fold reduction in overconfidence and the first 0-percent score on uncritically reporting flawed results. That gives buyers a number to negotiate against and red-team against. The pattern: ask vendors for their honesty and overconfidence numbers, not just their MMLU score.

Anthropics Opus-4.8-Release stellt eine messbare Honesty-Metrik (Quote des unkritischen Flaw-Durchlaufs) auf die oeffentliche Benchmark-Karte, mit einer zehnfachen Reduktion der Overconfidence und erstmals 0 Prozent beim unkritischen Berichten fehlerhafter Resultate. Das gibt Kaeufern eine Zahl zum Verhandeln und Red-Teamen. Das Muster: Vendoren nach Honesty- und Overconfidence-Werten fragen, nicht nur nach dem MMLU-Score.

Risks and open questionsRisiken und offene Fragen

Auditor captureAuditor-Capture

With Article 72 post-market monitoring obligations taking effect in August, providers of high-risk AI systems will need documented monitoring plans. There is a real chance that observability turns into an audit checkbox, where teams ship the trace pipeline to pass the review and never actually look at the data. The countermeasure is operational: someone on the team has to be paid to look at the eval dashboard each morning the way SREs look at error rates.

Mit dem Inkrafttreten der Art.-72-Post-Market-Monitoring-Pflichten im August brauchen Provider von Hochrisiko-Systemen dokumentierte Monitoring-Plaene. Das Risiko: Observability wird zur Audit-Checkbox, das Team shippt die Trace-Pipeline fuers Review und schaut nie wieder rein. Die Gegenmassnahme ist operativ: jemand muss bezahlt sein, das Eval-Dashboard jeden Morgen anzuschauen, so wie SREs die Error-Rates anschauen.

Judge driftJudge-Drift

If the production evaluator is itself an LLM, model updates upstream silently change the scoring distribution. A November regression in task success may not be a regression at all, just a judge-calibration shift. The countermeasure is a small, stable, human-labelled gold set re-scored on every judge update, treated as the calibration ground truth.

Wenn der produktive Evaluator selbst ein LLM ist, verschieben Modell-Updates upstream stillschweigend die Score-Verteilung. Eine November-Regression beim Task-Erfolg ist vielleicht keine Regression, sondern eine Judge-Kalibrierungs-Verschiebung. Gegenmassnahme: ein kleines, stabiles, menschlich gelabeltes Gold-Set, das bei jedem Judge-Update neu gescort wird, als Kalibrierungs-Ground-Truth.

Trace theatreTrace-Theater

Vendor demos make full-stack traces look effortless; in production, attribute names diverge between frameworks, PII leaks into span content, costs explode when every span is stored. The countermeasure is to plan the sampling strategy, redaction layer and retention window before procurement, not after.

Vendor-Demos lassen Full-Stack-Traces muehelos aussehen; in Produktion driften Attributnamen zwischen Frameworks, PII leakt in den Span-Inhalt, Kosten explodieren, wenn jeder Span gespeichert wird. Gegenmassnahme: Sampling-Strategie, Redaction-Layer und Retention-Fenster vor der Beschaffung planen, nicht danach.

Open questions into Q3Offene Fragen Richtung Q3

Does the OTel GenAI agent-spans spec exit experimental this year? Do the EU AI Office post-market guidelines (voluntary template due in 2026) reference OTel by name? Do the major analysts publish a defensible reference architecture for AgentOps that names category leaders rather than logo gardens? Those answers shape both the 2027 budget cycle and the procurement RFP language for the second half of 2026.

Verlaesst die OTel-GenAI-Agent-Spans-Spec dieses Jahr den Experimental-Status? Verweist die EU-AI-Office-Post-Market-Guideline (freiwilliges Template 2026 faellig) explizit auf OTel? Veroeffentlichen die grossen Analysten eine belastbare Referenzarchitektur fuer AgentOps mit Kategorie-Leadern statt Logo-Gaerten? Diese Antworten praegen sowohl den Budgetzyklus 2027 als auch die RFP-Sprache der zweiten Jahreshaelfte 2026.

What to do this monthWas diesen Monat zu tun ist

1. Instrument one agent on OTel1. Einen Agenten OTel-instrumentieren

Pick one production agent and instrument it against OTel GenAI semantic conventions. Choose a backend that ingests OTel (Langfuse, Phoenix, Braintrust, LangSmith, or your existing Datadog, Honeycomb or New Relic instance). Do not start with the most complex agent; pick one with clear success criteria and modest blast radius.

Einen produktiven Agenten waehlen und gegen OTel-GenAI-Semantic-Conventions instrumentieren. Ein OTel-faehiges Backend nehmen (Langfuse, Phoenix, Braintrust, LangSmith, oder die bestehende Datadog-, Honeycomb- oder New-Relic-Instanz). Nicht den komplexesten Agenten zuerst, sondern einen mit klaren Erfolgskriterien und moderatem Blast-Radius.

2. Three rubric-based scorers, online2. Drei Rubrik-Scorer, online

Define three rubric-based scorers and run them online against live traffic. Task success, tool-call correctness, and a harm or policy scorer cover most regulated use cases. Use a different model for the judge than the one under evaluation, and reserve 50 to 100 human-labelled samples per month as the calibration set.

Drei Rubrik-Scorer definieren und online gegen Live-Traffic laufen lassen. Task-Erfolg, Tool-Call-Korrektheit und ein Harm- oder Policy-Scorer decken die meisten regulierten Use-Cases ab. Fuer den Judge ein anderes Modell als das im Test, und 50 bis 100 menschlich gelabelte Samples pro Monat als Kalibrierungs-Set zuruecklegen.

3. Write the post-market monitoring plan3. Post-Market-Monitoring-Plan schreiben

The AI Act Article 72 template is due in February 2026 and obligations take effect in August. Treat it as engineering documentation, not legal copy: reference the OTel pipeline, name the dashboards, list the on-call rotation. A 2-page document that ties the trace store to the incident process is worth more than a 40-page policy.

Das AI-Act-Art.-72-Template ist seit Februar faellig, Vollzug ab August. Wie Engineering-Dokumentation behandeln, nicht wie Legal-Copy: OTel-Pipeline referenzieren, Dashboards benennen, On-Call-Rotation auflisten. Ein 2-Seiten-Dokument, das Trace-Store und Incident-Prozess verbindet, ist mehr wert als ein 40-Seiten-Policy-Paper.

4. Graduated-autonomy review4. Review der abgestuften Autonomie

Run a graduated-autonomy review on every agent already in production. For each action the agent can take, classify it as read-only, configuration, customer-impact or financial-impact, and document the required approval pattern. This is the Gartner uniform-governance fix in practical form.

Bei jedem produktiv laufenden Agenten ein Review der abgestuften Autonomie durchziehen. Jede moegliche Aktion klassifizieren: read-only, Konfiguration, Kundenwirkung, Finanzwirkung, und das jeweilige Approval-Muster dokumentieren. Das ist die Gartner-Diagnose in praktischer Form.

5. Brief the change-management track5. Change-Track briefen

Tell the change-management track that AgentOps is a discipline now. Update the role catalogue, decide whether AgentOps lives in the ML platform team, the SRE org, or as a standalone function, and budget for at least one named owner per business-critical agent.

Dem Change-Track mitteilen, dass AgentOps eine Disziplin ist. Den Rollenkatalog aktualisieren, klaeren, ob AgentOps im ML-Platform-Team, in der SRE-Organisation oder als eigenstaendige Funktion sitzt, und mindestens einen namentlichen Owner pro geschaeftskritischem Agenten budgetieren.

SourcesQuellen

14 / 14