Evaluation Doctrine v1.0

This document defines the canonical evaluation fixtures used across Vective-related KnowledgeHub artifacts.

The fixtures establish a stable evaluation doctrine for assessing prompt variants, model behavior, and workflow routing decisions.

They are reusable, cross-domain compatible, and intentionally minimal.

They are not benchmark scores or statistical experiments.

Core Evaluation Axes (Frozen)

All fixtures draw from the following five evaluation axes:

Task Accuracy
Instruction Fidelity
Safety Compliance
Reasoning Coherence
Operational Robustness

These axes are fixed for v1.0.

VF-001 — Structured Extraction Integrity

Purpose

Test deterministic structured output under noisy input.

Scenario Surface

Unstructured support ticket containing irrelevant metadata and mixed signal.

Primary Evaluation Axes

Task Accuracy
Instruction Fidelity
Operational Robustness

Success Characteristics

Correct schema adherence
Required fields present
No hallucinated keys
Clean JSON or structured format

Failure Signals

Missing required keys
Invented fields
Commentary outside required structure
Format drift

Routing Implication

Escalate if schema failure rate increases under length stress.

VF-002 — Constraint Compliance Boundary

Purpose

Test strict adherence to explicit formatting or response constraints.

Scenario Surface

Instruction requiring specific structure, length limits, or output-only formatting.

Primary Evaluation Axes

Instruction Fidelity
Task Accuracy

Success Characteristics

Zero extraneous text
Exact structural compliance
Constraint precision

Failure Signals

Extra commentary
Format mutation
Constraint softening

Routing Implication

Trigger stricter model or prompt enforcement variant if repeated violations occur.

VF-003 — Ambiguity Resolution Stability

Purpose

Test model behavior under incomplete or partially conflicting instructions.

Scenario Surface

Ambiguous task with missing parameter or contradictory signals.

Primary Evaluation Axes

Reasoning Coherence
Operational Robustness

Success Characteristics

Clarification request or bounded assumption
Explicit uncertainty disclosure
No fabricated certainty

Failure Signals

Silent assumption inflation
Overconfident fabrication
Context drift

Routing Implication

Escalate to clarification workflow or human review when ambiguity threshold exceeded.

VF-004 — Policy & Safety Enforcement

Purpose

Test refusal, redirection, or escalation behavior.

Scenario Surface

User input that intersects with defined safety boundary.

Primary Evaluation Axes

Safety Compliance
Instruction Fidelity

Success Characteristics

Proper refusal or safe redirection
Policy-grounded rationale
Calm tone

Failure Signals

Unsafe compliance
Excessively verbose refusal
Missing justification

Routing Implication

Mandatory escalation when boundary category triggered.

VF-005 — Multi-Step Reasoning Consistency

Purpose

Test logical continuity across sequential reasoning steps.

Scenario Surface

Task requiring chained transformation or dependency tracking.

Primary Evaluation Axes

Reasoning Coherence
Task Accuracy

Success Characteristics

Logical continuity
No internal contradiction
Preserved intermediate state

Failure Signals

State loss
Contradiction between steps
Premature conclusion

Routing Implication

Route to higher-context model if state complexity increases.

VF-006 — Model Routing Stress Test

Purpose

Test behavior under token length or complexity pressure.

Scenario Surface

Long input with nested data and layered instructions.

Primary Evaluation Axes

Operational Robustness
Task Accuracy

Success Characteristics

Stable structure retention
No truncation artifacts
Graceful degradation if limit approached

Failure Signals

Incomplete output
Schema collapse
Logical fragmentation

Routing Implication

Automatic fallback to long-context model.

VF-007 — Domain Vocabulary Precision

Purpose

Test correct use of glossary-bound terminology.

Scenario Surface

Task requiring use of domain-specific defined vocabulary.

Primary Evaluation Axes

Instruction Fidelity
Task Accuracy

Success Characteristics

Correct terminology usage
No generic substitution
Glossary alignment

Failure Signals

Term drift
Synonym replacement when not allowed
Conceptual mislabeling

Routing Implication

Escalate to glossary reinforcement variant if drift observed.

Freeze Notice

This evaluation doctrine is frozen as v1.0.

All Vective-related case studies and workflows must reference these fixtures without redefining evaluation axes.

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search