[
  {
    "task_name": "offtarget_safety_v0_1",
    "target_field": "category",
    "baseline_model": "train_majority_class",
    "evaluation_split": "validation",
    "train_rows": 66,
    "evaluation_rows": 5,
    "train_label_count": 5,
    "majority_label": "seed-mediated off-target effect",
    "majority_fraction_train": 0.3788,
    "accuracy": 0.2,
    "macro_f1": 0.1111,
    "prediction_basis": "global training-set category prior",
    "coverage": 1.0,
    "status": "completed_deterministic_baseline",
    "notes": "Sanity baseline: predicts the most common training category for the task.",
    "version": "20260604_core_validation_v45"
  },
  {
    "task_name": "offtarget_safety_v0_1",
    "target_field": "category",
    "baseline_model": "modality_prior_class",
    "evaluation_split": "validation",
    "train_rows": 66,
    "evaluation_rows": 5,
    "train_label_count": 5,
    "majority_label": "seed-mediated off-target effect",
    "majority_fraction_train": 0.3788,
    "accuracy": 0.2,
    "macro_f1": 0.125,
    "prediction_basis": "training-set majority category within the same modality",
    "coverage": 1.0,
    "status": "completed_deterministic_baseline",
    "notes": "Falls back to global majority when the evaluation modality is unseen in training.",
    "version": "20260604_core_validation_v45"
  },
  {
    "task_name": "offtarget_safety_v0_1",
    "target_field": "category",
    "baseline_model": "evidence_grade_prior_class",
    "evaluation_split": "validation",
    "train_rows": 66,
    "evaluation_rows": 5,
    "train_label_count": 5,
    "majority_label": "seed-mediated off-target effect",
    "majority_fraction_train": 0.3788,
    "accuracy": 0.2,
    "macro_f1": 0.1111,
    "prediction_basis": "training-set majority category within the same evidence grade",
    "coverage": 1.0,
    "status": "completed_deterministic_baseline",
    "notes": "Uses only A/B grade labels already present in the fixed reference split.",
    "version": "20260604_core_validation_v45"
  },
  {
    "task_name": "offtarget_safety_v0_1",
    "target_field": "category",
    "baseline_model": "target_prior_class",
    "evaluation_split": "validation",
    "train_rows": 66,
    "evaluation_rows": 5,
    "train_label_count": 5,
    "majority_label": "seed-mediated off-target effect",
    "majority_fraction_train": 0.3788,
    "accuracy": 0.2,
    "macro_f1": 0.1111,
    "prediction_basis": "training-set majority category within the same target gene",
    "coverage": 1.0,
    "status": "completed_deterministic_baseline",
    "notes": "Useful as a leakage check: low coverage indicates many held-out targets are unseen.",
    "version": "20260604_core_validation_v45"
  },
  {
    "task_name": "offtarget_safety_v0_1",
    "target_field": "category",
    "baseline_model": "train_majority_class",
    "evaluation_split": "test",
    "train_rows": 66,
    "evaluation_rows": 10,
    "train_label_count": 5,
    "majority_label": "seed-mediated off-target effect",
    "majority_fraction_train": 0.3788,
    "accuracy": 0.4,
    "macro_f1": 0.1429,
    "prediction_basis": "global training-set category prior",
    "coverage": 1.0,
    "status": "completed_deterministic_baseline",
    "notes": "Sanity baseline: predicts the most common training category for the task.",
    "version": "20260604_core_validation_v45"
  },
  {
    "task_name": "offtarget_safety_v0_1",
    "target_field": "category",
    "baseline_model": "modality_prior_class",
    "evaluation_split": "test",
    "train_rows": 66,
    "evaluation_rows": 10,
    "train_label_count": 5,
    "majority_label": "seed-mediated off-target effect",
    "majority_fraction_train": 0.3788,
    "accuracy": 0.6,
    "macro_f1": 0.3667,
    "prediction_basis": "training-set majority category within the same modality",
    "coverage": 0.9,
    "status": "completed_deterministic_baseline",
    "notes": "Falls back to global majority when the evaluation modality is unseen in training.",
    "version": "20260604_core_validation_v45"
  },
  {
    "task_name": "offtarget_safety_v0_1",
    "target_field": "category",
    "baseline_model": "evidence_grade_prior_class",
    "evaluation_split": "test",
    "train_rows": 66,
    "evaluation_rows": 10,
    "train_label_count": 5,
    "majority_label": "seed-mediated off-target effect",
    "majority_fraction_train": 0.3788,
    "accuracy": 0.4,
    "macro_f1": 0.1429,
    "prediction_basis": "training-set majority category within the same evidence grade",
    "coverage": 1.0,
    "status": "completed_deterministic_baseline",
    "notes": "Uses only A/B grade labels already present in the fixed reference split.",
    "version": "20260604_core_validation_v45"
  },
  {
    "task_name": "offtarget_safety_v0_1",
    "target_field": "category",
    "baseline_model": "target_prior_class",
    "evaluation_split": "test",
    "train_rows": 66,
    "evaluation_rows": 10,
    "train_label_count": 5,
    "majority_label": "seed-mediated off-target effect",
    "majority_fraction_train": 0.3788,
    "accuracy": 0.4,
    "macro_f1": 0.1429,
    "prediction_basis": "training-set majority category within the same target gene",
    "coverage": 0.9,
    "status": "completed_deterministic_baseline",
    "notes": "Useful as a leakage check: low coverage indicates many held-out targets are unseen.",
    "version": "20260604_core_validation_v45"
  },
  {
    "task_name": "toxicity_safety_v0_1",
    "target_field": "category",
    "baseline_model": "train_majority_class",
    "evaluation_split": "validation",
    "train_rows": 218,
    "evaluation_rows": 23,
    "train_label_count": 12,
    "majority_label": "hepatic",
    "majority_fraction_train": 0.4954,
    "accuracy": 0.6087,
    "macro_f1": 0.1261,
    "prediction_basis": "global training-set category prior",
    "coverage": 1.0,
    "status": "completed_deterministic_baseline",
    "notes": "Sanity baseline: predicts the most common training category for the task.",
    "version": "20260604_core_validation_v45"
  },
  {
    "task_name": "toxicity_safety_v0_1",
    "target_field": "category",
    "baseline_model": "modality_prior_class",
    "evaluation_split": "validation",
    "train_rows": 218,
    "evaluation_rows": 23,
    "train_label_count": 12,
    "majority_label": "hepatic",
    "majority_fraction_train": 0.4954,
    "accuracy": 0.5652,
    "macro_f1": 0.1204,
    "prediction_basis": "training-set majority category within the same modality",
    "coverage": 1.0,
    "status": "completed_deterministic_baseline",
    "notes": "Falls back to global majority when the evaluation modality is unseen in training.",
    "version": "20260604_core_validation_v45"
  },
  {
    "task_name": "toxicity_safety_v0_1",
    "target_field": "category",
    "baseline_model": "evidence_grade_prior_class",
    "evaluation_split": "validation",
    "train_rows": 218,
    "evaluation_rows": 23,
    "train_label_count": 12,
    "majority_label": "hepatic",
    "majority_fraction_train": 0.4954,
    "accuracy": 0.6087,
    "macro_f1": 0.1261,
    "prediction_basis": "training-set majority category within the same evidence grade",
    "coverage": 1.0,
    "status": "completed_deterministic_baseline",
    "notes": "Uses only A/B grade labels already present in the fixed reference split.",
    "version": "20260604_core_validation_v45"
  },
  {
    "task_name": "toxicity_safety_v0_1",
    "target_field": "category",
    "baseline_model": "target_prior_class",
    "evaluation_split": "validation",
    "train_rows": 218,
    "evaluation_rows": 23,
    "train_label_count": 12,
    "majority_label": "hepatic",
    "majority_fraction_train": 0.4954,
    "accuracy": 0.6087,
    "macro_f1": 0.1261,
    "prediction_basis": "training-set majority category within the same target gene",
    "coverage": 0.9565,
    "status": "completed_deterministic_baseline",
    "notes": "Useful as a leakage check: low coverage indicates many held-out targets are unseen.",
    "version": "20260604_core_validation_v45"
  },
  {
    "task_name": "toxicity_safety_v0_1",
    "target_field": "category",
    "baseline_model": "train_majority_class",
    "evaluation_split": "test",
    "train_rows": 218,
    "evaluation_rows": 22,
    "train_label_count": 12,
    "majority_label": "hepatic",
    "majority_fraction_train": 0.4954,
    "accuracy": 0.6364,
    "macro_f1": 0.2593,
    "prediction_basis": "global training-set category prior",
    "coverage": 1.0,
    "status": "completed_deterministic_baseline",
    "notes": "Sanity baseline: predicts the most common training category for the task.",
    "version": "20260604_core_validation_v45"
  },
  {
    "task_name": "toxicity_safety_v0_1",
    "target_field": "category",
    "baseline_model": "modality_prior_class",
    "evaluation_split": "test",
    "train_rows": 218,
    "evaluation_rows": 22,
    "train_label_count": 12,
    "majority_label": "hepatic",
    "majority_fraction_train": 0.4954,
    "accuracy": 0.5909,
    "macro_f1": 0.2476,
    "prediction_basis": "training-set majority category within the same modality",
    "coverage": 0.9545,
    "status": "completed_deterministic_baseline",
    "notes": "Falls back to global majority when the evaluation modality is unseen in training.",
    "version": "20260604_core_validation_v45"
  },
  {
    "task_name": "toxicity_safety_v0_1",
    "target_field": "category",
    "baseline_model": "evidence_grade_prior_class",
    "evaluation_split": "test",
    "train_rows": 218,
    "evaluation_rows": 22,
    "train_label_count": 12,
    "majority_label": "hepatic",
    "majority_fraction_train": 0.4954,
    "accuracy": 0.6364,
    "macro_f1": 0.2593,
    "prediction_basis": "training-set majority category within the same evidence grade",
    "coverage": 1.0,
    "status": "completed_deterministic_baseline",
    "notes": "Uses only A/B grade labels already present in the fixed reference split.",
    "version": "20260604_core_validation_v45"
  },
  {
    "task_name": "toxicity_safety_v0_1",
    "target_field": "category",
    "baseline_model": "target_prior_class",
    "evaluation_split": "test",
    "train_rows": 218,
    "evaluation_rows": 22,
    "train_label_count": 12,
    "majority_label": "hepatic",
    "majority_fraction_train": 0.4954,
    "accuracy": 0.6364,
    "macro_f1": 0.2593,
    "prediction_basis": "training-set majority category within the same target gene",
    "coverage": 0.7727,
    "status": "completed_deterministic_baseline",
    "notes": "Useful as a leakage check: low coverage indicates many held-out targets are unseen.",
    "version": "20260604_core_validation_v45"
  }
]