Adversarial Inputs

Maliciously crafted prompts or data points designed to bypass safety guardrails, exploit logic flaws, or trigger unintended behaviors like data exfiltration and 'jailbreaking' within AI agents or RAG systems. In RAG specifically, this includes context poisoning where retrieved documents contain hidden instructions that override the system prompt.

Definition

Disambiguation

Distinguish from 'out-of-distribution' data; adversarial inputs are intentional subversions, not accidental edge cases.

Visual Metaphor

"A Trojan Horse document in a RAG database that contains hidden text telling the AI to ignore all previous safety rules."

Key Tools

GarakPyRITNeMo GuardrailsLlama GuardPromptloo

Related Connections

Prompt Injection(Specific Type)
Context Poisoning(RAG-specific Vector)
System Prompt(Primary Target)
P-tuning Protection(Defense Mechanism)

Conceptual Overview

Disambiguation

Distinguish from 'out-of-distribution' data; adversarial inputs are intentional subversions, not accidental edge cases.

Visual Analog

A Trojan Horse document in a RAG database that contains hidden text telling the AI to ignore all previous safety rules.

Adversarial Inputs

Definition

Conceptual Overview

Disambiguation

Visual Analog

Related Articles