Core Concepts¶

Dataset¶

A dataset contains:

Stored in PostgreSQL with vector embeddings.

Takes a query, returns relevant documents.

results = retrieval_pipeline.retrieve(query="What causes fever?", top_k=10)
# Returns: [{"doc_id": 42, "score": 0.95}, ...]

Takes a query + retrieved documents, generates an answer.

answer = generation_pipeline.generate(query="What causes fever?", top_k=5)
# Returns: "Fever is caused by..."

Measures pipeline quality against ground truth.

Retrieval metrics: Did we find the right documents? (Recall, NDCG, MRR)

Generation metrics: Is the answer correct? (ROUGE, BERTScore)

Orchestrates pipeline execution and metric evaluation.

# experiment.yaml
db_name: beir_scifact_test

pipelines:
  retrieval: [bm25]

metrics:
  retrieval: [recall, ndcg]