task_name,target_field,baseline_model,evaluation_split,train_rows,evaluation_rows,train_label_count,majority_label,majority_fraction_train,accuracy,macro_f1,prediction_basis,coverage,status,notes,version
offtarget_safety_v0_1,category,train_majority_class,validation,66,5,5,seed-mediated off-target effect,0.3788,0.2,0.1111,global training-set category prior,1.0,completed_deterministic_baseline,Sanity baseline: predicts the most common training category for the task.,20260604_core_validation_v45
offtarget_safety_v0_1,category,modality_prior_class,validation,66,5,5,seed-mediated off-target effect,0.3788,0.2,0.125,training-set majority category within the same modality,1.0,completed_deterministic_baseline,Falls back to global majority when the evaluation modality is unseen in training.,20260604_core_validation_v45
offtarget_safety_v0_1,category,evidence_grade_prior_class,validation,66,5,5,seed-mediated off-target effect,0.3788,0.2,0.1111,training-set majority category within the same evidence grade,1.0,completed_deterministic_baseline,Uses only A/B grade labels already present in the fixed reference split.,20260604_core_validation_v45
offtarget_safety_v0_1,category,target_prior_class,validation,66,5,5,seed-mediated off-target effect,0.3788,0.2,0.1111,training-set majority category within the same target gene,1.0,completed_deterministic_baseline,Useful as a leakage check: low coverage indicates many held-out targets are unseen.,20260604_core_validation_v45
offtarget_safety_v0_1,category,train_majority_class,test,66,10,5,seed-mediated off-target effect,0.3788,0.4,0.1429,global training-set category prior,1.0,completed_deterministic_baseline,Sanity baseline: predicts the most common training category for the task.,20260604_core_validation_v45
offtarget_safety_v0_1,category,modality_prior_class,test,66,10,5,seed-mediated off-target effect,0.3788,0.6,0.3667,training-set majority category within the same modality,0.9,completed_deterministic_baseline,Falls back to global majority when the evaluation modality is unseen in training.,20260604_core_validation_v45
offtarget_safety_v0_1,category,evidence_grade_prior_class,test,66,10,5,seed-mediated off-target effect,0.3788,0.4,0.1429,training-set majority category within the same evidence grade,1.0,completed_deterministic_baseline,Uses only A/B grade labels already present in the fixed reference split.,20260604_core_validation_v45
offtarget_safety_v0_1,category,target_prior_class,test,66,10,5,seed-mediated off-target effect,0.3788,0.4,0.1429,training-set majority category within the same target gene,0.9,completed_deterministic_baseline,Useful as a leakage check: low coverage indicates many held-out targets are unseen.,20260604_core_validation_v45
toxicity_safety_v0_1,category,train_majority_class,validation,218,23,12,hepatic,0.4954,0.6087,0.1261,global training-set category prior,1.0,completed_deterministic_baseline,Sanity baseline: predicts the most common training category for the task.,20260604_core_validation_v45
toxicity_safety_v0_1,category,modality_prior_class,validation,218,23,12,hepatic,0.4954,0.5652,0.1204,training-set majority category within the same modality,1.0,completed_deterministic_baseline,Falls back to global majority when the evaluation modality is unseen in training.,20260604_core_validation_v45
toxicity_safety_v0_1,category,evidence_grade_prior_class,validation,218,23,12,hepatic,0.4954,0.6087,0.1261,training-set majority category within the same evidence grade,1.0,completed_deterministic_baseline,Uses only A/B grade labels already present in the fixed reference split.,20260604_core_validation_v45
toxicity_safety_v0_1,category,target_prior_class,validation,218,23,12,hepatic,0.4954,0.6087,0.1261,training-set majority category within the same target gene,0.9565,completed_deterministic_baseline,Useful as a leakage check: low coverage indicates many held-out targets are unseen.,20260604_core_validation_v45
toxicity_safety_v0_1,category,train_majority_class,test,218,22,12,hepatic,0.4954,0.6364,0.2593,global training-set category prior,1.0,completed_deterministic_baseline,Sanity baseline: predicts the most common training category for the task.,20260604_core_validation_v45
toxicity_safety_v0_1,category,modality_prior_class,test,218,22,12,hepatic,0.4954,0.5909,0.2476,training-set majority category within the same modality,0.9545,completed_deterministic_baseline,Falls back to global majority when the evaluation modality is unseen in training.,20260604_core_validation_v45
toxicity_safety_v0_1,category,evidence_grade_prior_class,test,218,22,12,hepatic,0.4954,0.6364,0.2593,training-set majority category within the same evidence grade,1.0,completed_deterministic_baseline,Uses only A/B grade labels already present in the fixed reference split.,20260604_core_validation_v45
toxicity_safety_v0_1,category,target_prior_class,test,218,22,12,hepatic,0.4954,0.6364,0.2593,training-set majority category within the same target gene,0.7727,completed_deterministic_baseline,Useful as a leakage check: low coverage indicates many held-out targets are unseen.,20260604_core_validation_v45