Every Eval Ever

Leaderboard

Filter


CombinHorizon/zetasepic-abliteratedV2-Qwen2.5-32B-Inst-BaseMerge-TIES	marcuscedricridia	122.61	0.61	0.73	0.38	0.81	0.41	0.73	0.59	MistralForCausalLM	bfloat16


MaziyarPanahi/calme-3.2-instruct-78b	MaziyarPanahi	77.96	0.61	0.73	0.4	0.81	0.4	0.73	0.6	Qwen2ForCausalLM	bfloat16
dfurman/CalmeRys-78B-Orpo-v0.1	dfurman	77.96	0.61	0.73	0.4	0.82	0.41	0.7	0.59	Qwen2ForCausalLM	bfloat16
MaziyarPanahi/calme-3.1-instruct-78b	MaziyarPanahi	77.96	0.61	0.73	0.4	0.81	0.39	0.72	0.59	Qwen2ForCausalLM	bfloat16
MaziyarPanahi/calme-2.4-rys-78b	MaziyarPanahi	77.96	0.6	0.73	0.4	0.8	0.41	0.7	0.58	Qwen2ForCausalLM	bfloat16
huihui-ai/Qwen2.5-72B-Instruct-abliterated	huihui-ai	72.71	0.59	0.72	0.4	0.86	0.6	0.55	0.42	Qwen2ForCausalLM	bfloat16
Qwen/Qwen2.5-72B-Instruct	Qwen	72.71	0.59	0.73	0.38	0.86	0.6	0.56	0.42	Qwen2ForCausalLM	bfloat16
MaziyarPanahi/calme-2.1-qwen2.5-72b	alibaba	72.7	0.59	0.73	0.36	0.87	0.59	0.56	0.43	Qwen2ForCausalLM	bfloat16
ehristoforu/qwen2.5-test-32b-it	alibaba	32.76	0.58	0.71	0.36	0.79	0.6	0.58	0.46	Qwen2ForCausalLM	bfloat16
CombinHorizon/zetasepic-abliteratedV2-Qwen2.5-32B-Inst-BaseMerge-TIES	alibaba	32.76	0.58	0.7	0.37	0.83	0.59	0.57	0.43	Qwen2ForCausalLM	bfloat16
Saxo/Linkbricks-Horizon-AI-Avengers-V6-32B	Saxo	32.76	0.58	0.69	0.33	0.82	0.62	0.57	0.43	Qwen2ForCausalLM	bfloat16
Qwen/Qwen2.5-32B-Instruct	Qwen	32.76	0.58	0.69	0.34	0.83	0.63	0.57	0.43	Qwen2ForCausalLM	bfloat16
MaziyarPanahi/calme-2.2-qwen2.5-72b	alibaba	72.7	0.58	0.73	0.36	0.85	0.59	0.56	0.42	Qwen2ForCausalLM	bfloat16
tanliboy/lambda-qwen2.5-32b-dpo-test	tanliboy	32.76	0.58	0.68	0.36	0.81	0.61	0.57	0.43	Qwen2ForCausalLM	bfloat16
maldv/Awqward2.5-32B-Instruct	maldv	32.76	0.58	0.7	0.34	0.83	0.62	0.57	0.43	Qwen2ForCausalLM	bfloat16
Saxo/Linkbricks-Horizon-AI-Avengers-V3-32B	Saxo	32.76	0.58	0.69	0.34	0.82	0.62	0.57	0.43	Qwen2ForCausalLM	bfloat16
Saxo/Linkbricks-Horizon-AI-Avengers-V1-32B	Saxo	32.76	0.58	0.7	0.36	0.8	0.6	0.58	0.45	Qwen2ForCausalLM	bfloat16
zetasepic/Qwen2.5-32B-Instruct-abliterated-v2	zetasepic	32.76	0.58	0.69	0.37	0.83	0.6	0.56	0.44	Qwen2ForCausalLM	bfloat16
mistralai/Mistral-Large-Instruct-2411	mistralai	122.61	0.58	0.67	0.44	0.84	0.5	0.56	0.45	MistralForCausalLM	float16
newsbang/Homer-v1.0-Qwen2.5-72B	alibaba	72.71	0.58	0.73	0.42	0.76	0.49	0.61	0.47	Qwen2ForCausalLM	bfloat16
rubenroy/Gilgamesh-72B	rubenroy	72.71	0.58	0.73	0.39	0.85	0.44	0.58	0.46	Qwen2ForCausalLM	float16
fluently-lm/FluentlyLM-Prinum	fluently-lm	32.76	0.58	0.71	0.39	0.81	0.54	0.58	0.45	Qwen2ForCausalLM	bfloat16
maldv/Qwentile2.5-32B-Instruct	maldv	32.76	0.57	0.7	0.38	0.74	0.52	0.59	0.47	Qwen2ForCausalLM	bfloat16
zetasepic/Qwen2.5-72B-Instruct-abliterated	zetasepic	72.71	0.57	0.72	0.41	0.72	0.52	0.59	0.47	Qwen2ForCausalLM	bfloat16
OpenBuddy/openbuddy-llama3.3-70b-v24.1-131k	meta	70.55	0.57	0.69	0.43	0.81	0.44	0.53	0.49	LlamaForCausalLM	bfloat16
CombinHorizon/huihui-ai-abliterated-Qwen2.5-32B-Inst-BaseMerge-TIES	alibaba	32.76	0.57	0.69	0.34	0.82	0.59	0.57	0.42	Qwen2ForCausalLM	bfloat16
shuttleai/shuttle-3	shuttleai	72.71	0.57	0.74	0.41	0.82	0.46	0.57	0.44	Qwen2ForCausalLM	float16
Saxo/Linkbricks-Horizon-AI-Avengers-V4-32B	Saxo	32.76	0.57	0.69	0.36	0.76	0.54	0.58	0.46	Qwen2ForCausalLM	bfloat16
Saxo/Linkbricks-Horizon-AI-Avengers-V5-32B	Saxo	32.76	0.57	0.69	0.36	0.75	0.55	0.58	0.47	Qwen2ForCausalLM	bfloat16
rombodawg/Rombos-LLM-V2.5-Qwen-72b	alibaba	72.71	0.57	0.72	0.4	0.72	0.54	0.59	0.46	Qwen2ForCausalLM	bfloat16
Sakalti/ultiima-72B	Sakalti	72.71	0.57	0.72	0.41	0.71	0.54	0.59	0.47	Qwen2ForCausalLM	float16
raphgg/test-2.5-72B	raphgg	72.71	0.57	0.73	0.39	0.84	0.41	0.58	0.48	Qwen2ForCausalLM	bfloat16
meta-llama/Llama-3.3-70B-Instruct	meta-llama	70.55	0.56	0.69	0.33	0.9	0.48	0.53	0.45	LlamaForCausalLM	bfloat16
wanlige/li-14b-v0.4	wanlige	14.77	0.56	0.65	0.34	0.81	0.56	0.52	0.45	Qwen2ForCausalLM	bfloat16
Cran-May/tempmotacilla-cinerea-0308	Cran-May	14.77	0.56	0.66	0.36	0.81	0.56	0.53	0.42	Qwen2ForCausalLM	bfloat16
dnhkng/RYS-XLarge	dnhkng	77.96	0.56	0.71	0.38	0.8	0.43	0.54	0.5	Qwen2ForCausalLM	bfloat16
Sakalti/ultiima-32B	Sakalti	32.76	0.56	0.7	0.38	0.69	0.5	0.59	0.5	Qwen2ForCausalLM	float16
rombodawg/Rombos-LLM-V2.5-Qwen-32b	alibaba	32.76	0.56	0.7	0.4	0.68	0.5	0.59	0.5	Qwen2ForCausalLM	bfloat16
FINGU-AI/RomboUltima-32B	FINGU-AI	17.64	0.56	0.69	0.37	0.67	0.54	0.58	0.48	Qwen2ForCausalLM	float16
JungZoona/T3Q-qwen2.5-14b-v1.0-e3	alibaba	14.77	0.56	0.76	0.42	0.73	0.29	0.59	0.59	Qwen2ForCausalLM	bfloat16
ssmits/Qwen2.5-95B-Instruct	ssmits	94.65	0.56	0.7	0.36	0.84	0.53	0.52	0.43	Qwen2ForCausalLM	bfloat16
JungZoona/T3Q-Qwen2.5-14B-Instruct-1M-e3	JungZoona	0	0.56	0.76	0.42	0.73	0.29	0.59	0.59	Unknown	bfloat16
tomasmcm/sky-t1-coder-32b-flash	tomasmcm	32.76	0.56	0.68	0.37	0.78	0.54	0.58	0.42	Qwen2ForCausalLM	bfloat16
Aryanne/QwentileSwap	alibaba	32.76	0.55	0.7	0.37	0.74	0.42	0.59	0.46	Qwen2ForCausalLM	bfloat16
MaziyarPanahi/calme-2.3-rys-78b	MaziyarPanahi	77.96	0.55	0.71	0.4	0.81	0.4	0.55	0.45	Qwen2ForCausalLM	bfloat16
EVA-UNIT-01/EVA-Qwen2.5-72B-v0.2	alibaba	72.71	0.55	0.71	0.41	0.69	0.43	0.58	0.47	Qwen2ForCausalLM	bfloat16
Triangle104/Set-70b	Triangle104	70.55	0.55	0.7	0.45	0.76	0.36	0.54	0.47	LlamaForCausalLM	bfloat16
Steelskull/L3.3-MS-Nevoria-70b	Steelskull	70.55	0.55	0.7	0.47	0.7	0.4	0.55	0.47	LlamaForCausalLM	bfloat16
MaziyarPanahi/calme-2.2-rys-78b	MaziyarPanahi	77.96	0.55	0.71	0.41	0.8	0.41	0.54	0.45	Qwen2ForCausalLM	bfloat16
marcuscedricridia/Cheng-2	marcuscedricridia	14.77	0.55	0.65	0.35	0.83	0.54	0.5	0.42	Qwen2ForCausalLM	bfloat16
dfurman/Qwen2-72B-Orpo-v0.1	alibaba	72.7	0.55	0.7	0.38	0.79	0.41	0.55	0.48	Qwen2ForCausalLM	bfloat16

1 / 92

Metric Reference

IFEval ↑ Higher is better

Accuracy on IFEval

Range: [0 – 1] CONTINUOUS

BBH ↑ Higher is better

Accuracy on BBH

Range: [0 – 1] CONTINUOUS

MATH Level 5 ↑ Higher is better

Exact Match on MATH Level 5

Range: [0 – 1] CONTINUOUS

GPQA ↑ Higher is better

Accuracy on GPQA

Range: [0 – 1] CONTINUOUS

MUSR ↑ Higher is better

Accuracy on MUSR

Range: [0 – 1] CONTINUOUS

MMLU-PRO ↑ Higher is better

Accuracy on MMLU-PRO

Range: [0 – 1] CONTINUOUS

Every Eval Ever

hfopenllm_v2

Metric Reference

Find and compare models across all leaderboards

Search for models to compare