features/ai/caching

Prompt caching

Il system prompt viene cached lato Anthropic. Dalla 2ª richiesta paghi 1/10 del costo input.

Il system prompt di BIncenzo è lungo (vari KB di directive, schema, esempi). Senza caching, ogni richiesta paga il costo pieno di quell'input. Con caching, la prima richiesta di una sessione popola la cache lato Anthropic (costo pieno più un 25% di premium); le successive 4 minuti leggono dalla cache a 1/10 del costo.

Implementato usando cache_control: { type: "ephemeral" } sulla parte statica del system prompt. La parte dinamica (data corrente, directive runtime) viene fuori dal blocco cached, così non invalida la cache a ogni richiesta.

Verifica: dalla seconda richiesta in poi, cache_read_input_tokens cresce nel response usage. La dashboard Anthropic mostra il risparmio totale. In pratica una sessione tipica paga il 20-30% del costo che pagherebbe senza caching.