AI model comparisons

Claude Opus 5 vs GPT-5.6 Sol

50 shared tasks · 50 scored

Verdict: Claude Opus 5 leads 25–18 with 7 ties

Claude Opus 5 vs Kimi K3

50 shared tasks · 50 scored

Verdict: Claude Opus 5 leads 22–21 with 7 ties

Claude Opus 5 vs Muse Spark 1.2

50 shared tasks · 50 scored

Verdict: Claude Opus 5 leads 36–7 with 7 ties

Claude Opus 5 vs Gemini 3.6 Flash

50 shared tasks · 50 scored

Verdict: Claude Opus 5 leads 37–7 with 6 ties

Claude Opus 5 vs Inkling

50 shared tasks · 50 scored

Verdict: Claude Opus 5 leads 45–5

GPT-5.6 Sol vs Kimi K3

50 shared tasks · 50 scored

Verdict: GPT-5.6 Sol leads 21–20 with 9 ties

GPT-5.6 Sol vs Muse Spark 1.2

50 shared tasks · 50 scored

Verdict: GPT-5.6 Sol leads 33–6 with 11 ties

GPT-5.6 Sol vs Gemini 3.6 Flash

50 shared tasks · 50 scored

Verdict: GPT-5.6 Sol leads 40–6 with 4 ties

GPT-5.6 Sol vs Inkling

50 shared tasks · 50 scored

Verdict: GPT-5.6 Sol leads 48–2

Gemini 3.6 Flash vs Inkling

50 shared tasks · 50 scored

Verdict: Gemini 3.6 Flash leads 37–7 with 6 ties

Kimi K3 vs Muse Spark 1.2

50 shared tasks · 50 scored

Verdict: Kimi K3 leads 33–13 with 4 ties

Kimi K3 vs Gemini 3.6 Flash

50 shared tasks · 50 scored

Verdict: Kimi K3 leads 37–11 with 2 ties

Kimi K3 vs Inkling

50 shared tasks · 50 scored

Verdict: Kimi K3 leads 45–5

Muse Spark 1.2 vs Gemini 3.6 Flash

50 shared tasks · 50 scored

Verdict: Muse Spark 1.2 leads 29–14 with 7 ties

Muse Spark 1.2 vs Inkling

50 shared tasks · 50 scored

Verdict: Muse Spark 1.2 leads 41–8 with 1 tie

Claude Fable 5 vs MiniMax M3

47 shared tasks · 47 scored

Verdict: Claude Fable 5 leads 26–18 with 3 ties

Claude Fable 5 vs Kimi K3

47 shared tasks · 47 scored

Verdict: Kimi K3 leads 29–17 with 1 tie

Claude Fable 5 vs GLM-5.2

47 shared tasks · 47 scored

Verdict: Claude Fable 5 leads 32–12 with 3 ties

Claude Fable 5 vs Muse Spark 1.2

47 shared tasks · 47 scored

Verdict: Muse Spark 1.2 leads 23–20 with 4 ties

Claude Fable 5 vs Opus 4.8

47 shared tasks · 47 scored

Verdict: Claude Fable 5 leads 28–14 with 5 ties

Claude Fable 5 vs Gemini 3.6 Flash

47 shared tasks · 47 scored

Verdict: Claude Fable 5 leads 29–16 with 2 ties

Claude Fable 5 vs Claude Sonnet 5

47 shared tasks · 47 scored

Verdict: Claude Fable 5 leads 30–11 with 6 ties

Claude Fable 5 vs Qwen 3.7

47 shared tasks · 47 scored

Verdict: Claude Fable 5 leads 38–6 with 3 ties

Claude Fable 5 vs Inkling

47 shared tasks · 47 scored

Verdict: Claude Fable 5 leads 45–1 with 1 tie

Claude Opus 5 vs Hermes MoA

47 shared tasks · 47 scored

Verdict: Claude Opus 5 leads 26–16 with 5 ties

Claude Opus 5 vs Claude Fable 5

47 shared tasks · 47 scored

Verdict: Claude Opus 5 leads 29–12 with 6 ties

Claude Opus 5 vs MiniMax M3

47 shared tasks · 47 scored

Verdict: Claude Opus 5 leads 30–17

Claude Opus 5 vs GLM-5.2

47 shared tasks · 47 scored

Verdict: Claude Opus 5 leads 36–10 with 1 tie

Claude Opus 5 vs Opus 4.8

47 shared tasks · 47 scored

Verdict: Claude Opus 5 leads 36–9 with 2 ties

Claude Opus 5 vs Claude Sonnet 5

47 shared tasks · 47 scored

Verdict: Claude Opus 5 leads 37–9 with 1 tie

Claude Opus 5 vs Qwen 3.7

47 shared tasks · 47 scored

Verdict: Claude Opus 5 leads 41–5 with 1 tie

Claude Sonnet 5 vs Qwen 3.7

47 shared tasks · 47 scored

Verdict: Claude Sonnet 5 leads 32–15

Claude Sonnet 5 vs Inkling

47 shared tasks · 47 scored

Verdict: Claude Sonnet 5 leads 32–13 with 2 ties

Fusion vs Claude Opus 5

47 shared tasks · 47 scored

Verdict: Fusion leads 29–16 with 2 ties

Fusion vs Hermes MoA

47 shared tasks · 47 scored

Verdict: Fusion leads 29–18

Fusion vs GPT-5.6 Sol

47 shared tasks · 47 scored

Verdict: Fusion leads 30–17

Fusion vs Claude Fable 5

47 shared tasks · 47 scored

Verdict: Fusion leads 36–7 with 4 ties

Fusion vs MiniMax M3

47 shared tasks · 47 scored

Verdict: Fusion leads 37–2 with 8 ties

Fusion vs Kimi K3

47 shared tasks · 47 scored

Verdict: Fusion leads 31–15 with 1 tie

Fusion vs GLM-5.2

47 shared tasks · 47 scored

Verdict: Fusion leads 39–5 with 3 ties

Fusion vs Muse Spark 1.2

47 shared tasks · 47 scored

Verdict: Fusion leads 38–9

Fusion vs Opus 4.8

47 shared tasks · 47 scored

Verdict: Fusion leads 36–2 with 9 ties

Fusion vs Gemini 3.6 Flash

47 shared tasks · 47 scored

Verdict: Fusion leads 37–10

Fusion vs Claude Sonnet 5

47 shared tasks · 47 scored

Verdict: Fusion leads 37–7 with 3 ties

Fusion vs Qwen 3.7

47 shared tasks · 47 scored

Verdict: Fusion leads 46–0 with 1 tie

Fusion vs Inkling

47 shared tasks · 47 scored

Verdict: Fusion leads 45–2

GLM-5.2 vs Muse Spark 1.2

47 shared tasks · 47 scored

Verdict: Muse Spark 1.2 leads 27–20

GLM-5.2 vs Opus 4.8

47 shared tasks · 47 scored

Verdict: GLM-5.2 leads 20–9 with 18 ties

GLM-5.2 vs Gemini 3.6 Flash

47 shared tasks · 47 scored

Verdict: GLM-5.2 leads 27–20

GLM-5.2 vs Claude Sonnet 5

47 shared tasks · 47 scored

Verdict: GLM-5.2 leads 23–22 with 2 ties

GLM-5.2 vs Qwen 3.7

47 shared tasks · 47 scored

Verdict: GLM-5.2 leads 29–6 with 12 ties

GLM-5.2 vs Inkling

47 shared tasks · 47 scored

Verdict: GLM-5.2 leads 43–4

GPT-5.6 Sol vs Claude Fable 5

47 shared tasks · 47 scored

Verdict: GPT-5.6 Sol leads 31–10 with 6 ties

GPT-5.6 Sol vs MiniMax M3

47 shared tasks · 47 scored

Verdict: GPT-5.6 Sol leads 32–15

GPT-5.6 Sol vs GLM-5.2

47 shared tasks · 47 scored

Verdict: GPT-5.6 Sol leads 38–9

GPT-5.6 Sol vs Opus 4.8

47 shared tasks · 47 scored

Verdict: GPT-5.6 Sol leads 40–7

GPT-5.6 Sol vs Claude Sonnet 5

47 shared tasks · 47 scored

Verdict: GPT-5.6 Sol leads 39–5 with 3 ties

GPT-5.6 Sol vs Qwen 3.7

47 shared tasks · 47 scored

Verdict: GPT-5.6 Sol leads 43–4

Gemini 3.6 Flash vs Claude Sonnet 5

47 shared tasks · 47 scored

Verdict: Gemini 3.6 Flash leads 22–20 with 5 ties

Gemini 3.6 Flash vs Qwen 3.7

47 shared tasks · 47 scored

Verdict: Gemini 3.6 Flash leads 30–17

Hermes MoA vs GPT-5.6 Sol

47 shared tasks · 47 scored

Verdict: tied 19–19 with 9 ties

Hermes MoA vs Claude Fable 5

47 shared tasks · 47 scored

Verdict: Hermes MoA leads 26–16 with 5 ties

Hermes MoA vs MiniMax M3

47 shared tasks · 47 scored

Verdict: Hermes MoA leads 31–16

Hermes MoA vs Kimi K3

47 shared tasks · 47 scored

Verdict: Kimi K3 leads 23–21 with 3 ties

Hermes MoA vs GLM-5.2

47 shared tasks · 47 scored

Verdict: Hermes MoA leads 34–13

Hermes MoA vs Muse Spark 1.2

47 shared tasks · 47 scored

Verdict: Hermes MoA leads 28–14 with 5 ties

Hermes MoA vs Opus 4.8

47 shared tasks · 47 scored

Verdict: Hermes MoA leads 35–11 with 1 tie

Hermes MoA vs Gemini 3.6 Flash

47 shared tasks · 47 scored

Verdict: Hermes MoA leads 32–11 with 4 ties

Hermes MoA vs Claude Sonnet 5

47 shared tasks · 47 scored

Verdict: Hermes MoA leads 37–9 with 1 tie

Hermes MoA vs Qwen 3.7

47 shared tasks · 47 scored

Verdict: Hermes MoA leads 42–4 with 1 tie

Hermes MoA vs Inkling

47 shared tasks · 47 scored

Verdict: Hermes MoA leads 44–2 with 1 tie

Kimi K3 vs GLM-5.2

47 shared tasks · 47 scored

Verdict: Kimi K3 leads 30–14 with 3 ties

Kimi K3 vs Opus 4.8

47 shared tasks · 47 scored

Verdict: Kimi K3 leads 33–13 with 1 tie

Kimi K3 vs Claude Sonnet 5

47 shared tasks · 47 scored

Verdict: Kimi K3 leads 35–9 with 3 ties

Kimi K3 vs Qwen 3.7

47 shared tasks · 47 scored

Verdict: Kimi K3 leads 37–10

MiniMax M3 vs Kimi K3

47 shared tasks · 47 scored

Verdict: Kimi K3 leads 30–16 with 1 tie

MiniMax M3 vs GLM-5.2

47 shared tasks · 47 scored

Verdict: MiniMax M3 leads 28–11 with 8 ties

MiniMax M3 vs Muse Spark 1.2

47 shared tasks · 47 scored

Verdict: MiniMax M3 leads 24–22 with 1 tie

MiniMax M3 vs Opus 4.8

47 shared tasks · 47 scored

Verdict: MiniMax M3 leads 27–14 with 6 ties

MiniMax M3 vs Gemini 3.6 Flash

47 shared tasks · 47 scored

Verdict: MiniMax M3 leads 29–18

MiniMax M3 vs Claude Sonnet 5

47 shared tasks · 47 scored

Verdict: MiniMax M3 leads 28–17 with 2 ties

MiniMax M3 vs Qwen 3.7

47 shared tasks · 47 scored

Verdict: MiniMax M3 leads 34–4 with 9 ties

MiniMax M3 vs Inkling

47 shared tasks · 47 scored

Verdict: MiniMax M3 leads 44–3

Muse Spark 1.2 vs Opus 4.8

47 shared tasks · 47 scored

Verdict: Muse Spark 1.2 leads 28–19

Muse Spark 1.2 vs Claude Sonnet 5

47 shared tasks · 47 scored

Verdict: Muse Spark 1.2 leads 26–17 with 4 ties

Muse Spark 1.2 vs Qwen 3.7

47 shared tasks · 47 scored

Verdict: Muse Spark 1.2 leads 32–15

Opus 4.8 vs Gemini 3.6 Flash

47 shared tasks · 47 scored

Verdict: Gemini 3.6 Flash leads 24–23

Opus 4.8 vs Claude Sonnet 5

47 shared tasks · 47 scored

Verdict: Claude Sonnet 5 leads 26–20 with 1 tie

Opus 4.8 vs Qwen 3.7

47 shared tasks · 47 scored

Verdict: Opus 4.8 leads 21–11 with 15 ties

Opus 4.8 vs Inkling

47 shared tasks · 47 scored

Verdict: Opus 4.8 leads 41–6

Qwen 3.7 vs Inkling

47 shared tasks · 47 scored

Verdict: Qwen 3.7 leads 34–13

Claude Opus 5 vs Qwen 3.8

45 shared tasks · 45 scored

Verdict: Claude Opus 5 leads 23–15 with 7 ties

GPT-5.6 Sol vs Qwen 3.8

45 shared tasks · 45 scored

Verdict: tied 18–18 with 9 ties

Qwen 3.8 vs Kimi K3

45 shared tasks · 45 scored

Verdict: Qwen 3.8 leads 22–17 with 6 ties

Qwen 3.8 vs Muse Spark 1.2

45 shared tasks · 45 scored

Verdict: Qwen 3.8 leads 30–5 with 10 ties

Qwen 3.8 vs Gemini 3.6 Flash

45 shared tasks · 45 scored

Verdict: Qwen 3.8 leads 35–9 with 1 tie

Qwen 3.8 vs Inkling

45 shared tasks · 45 scored

Verdict: Qwen 3.8 leads 41–3 with 1 tie

Claude Fable 5 vs Grok

47 shared tasks · 43 scored

Verdict: Claude Fable 5 leads 20–17 with 6 ties

Claude Opus 5 vs Grok

47 shared tasks · 43 scored

Verdict: Claude Opus 5 leads 28–15

Fusion vs Grok

47 shared tasks · 43 scored

Verdict: Fusion leads 31–2 with 10 ties

GPT-5.6 Sol vs Grok

47 shared tasks · 43 scored

Verdict: GPT-5.6 Sol leads 28–14 with 1 tie

Grok vs MiniMax M3

47 shared tasks · 43 scored

Verdict: Grok leads 19–7 with 17 ties

Grok vs Kimi K3

47 shared tasks · 43 scored

Verdict: Kimi K3 leads 25–18

Grok vs GLM-5.2

47 shared tasks · 43 scored

Verdict: Grok leads 24–9 with 10 ties

Grok vs Muse Spark 1.2

47 shared tasks · 43 scored

Verdict: tied 21–21 with 1 tie

Grok vs Opus 4.8

47 shared tasks · 43 scored

Verdict: Grok leads 22–8 with 13 ties

Grok vs Gemini 3.6 Flash

47 shared tasks · 43 scored

Verdict: Grok leads 27–16

Grok vs Claude Sonnet 5

47 shared tasks · 43 scored

Verdict: Grok leads 26–16 with 1 tie

Grok vs Qwen 3.7

47 shared tasks · 43 scored

Verdict: Grok leads 34–1 with 8 ties

Grok vs Inkling

47 shared tasks · 43 scored

Verdict: Grok leads 39–4

Hermes MoA vs Grok

47 shared tasks · 43 scored

Verdict: Hermes MoA leads 27–14 with 2 ties

Claude Fable 5 vs Qwen 3.8

42 shared tasks · 42 scored

Verdict: Qwen 3.8 leads 23–13 with 6 ties

Claude Fable 5 vs Fugu Ultra

42 shared tasks · 42 scored

Verdict: Claude Fable 5 leads 25–16 with 1 tie

Claude Opus 5 vs Fugu Ultra

42 shared tasks · 42 scored

Verdict: Claude Opus 5 leads 28–13 with 1 tie

Fugu Ultra vs Kimi K3

42 shared tasks · 42 scored

Verdict: Kimi K3 leads 27–15

Fugu Ultra vs GLM-5.2

42 shared tasks · 42 scored

Verdict: Fugu Ultra leads 23–15 with 4 ties

Fugu Ultra vs Muse Spark 1.2

42 shared tasks · 42 scored

Verdict: Fugu Ultra leads 23–19

Fugu Ultra vs Opus 4.8

42 shared tasks · 42 scored

Verdict: Fugu Ultra leads 25–11 with 6 ties

Fugu Ultra vs Gemini 3.6 Flash

42 shared tasks · 42 scored

Verdict: Fugu Ultra leads 28–14

Fugu Ultra vs Claude Sonnet 5

42 shared tasks · 42 scored

Verdict: Fugu Ultra leads 25–15 with 2 ties

Fugu Ultra vs Qwen 3.7

42 shared tasks · 42 scored

Verdict: Fugu Ultra leads 34–6 with 2 ties

Fugu Ultra vs Inkling

42 shared tasks · 42 scored

Verdict: Fugu Ultra leads 37–5

Fusion vs Qwen 3.8

42 shared tasks · 42 scored

Verdict: Fusion leads 27–14 with 1 tie

Fusion vs Fugu Ultra

42 shared tasks · 42 scored

Verdict: Fusion leads 26–4 with 12 ties

GPT-5.6 Sol vs Fugu Ultra

42 shared tasks · 42 scored

Verdict: GPT-5.6 Sol leads 28–13 with 1 tie

Hermes MoA vs Qwen 3.8

42 shared tasks · 42 scored

Verdict: Qwen 3.8 leads 20–12 with 10 ties

Hermes MoA vs Fugu Ultra

42 shared tasks · 42 scored

Verdict: Hermes MoA leads 27–15

MiniMax M3 vs Fugu Ultra

42 shared tasks · 42 scored

Verdict: MiniMax M3 leads 17–15 with 10 ties

Qwen 3.8 vs MiniMax M3

42 shared tasks · 42 scored

Verdict: Qwen 3.8 leads 30–12

Qwen 3.8 vs GLM-5.2

42 shared tasks · 42 scored

Verdict: Qwen 3.8 leads 30–12

Qwen 3.8 vs Opus 4.8

42 shared tasks · 42 scored

Verdict: Qwen 3.8 leads 33–9

Qwen 3.8 vs Claude Sonnet 5

42 shared tasks · 42 scored

Verdict: Qwen 3.8 leads 30–9 with 3 ties

Qwen 3.8 vs Qwen 3.7

42 shared tasks · 42 scored

Verdict: Qwen 3.8 leads 36–6

Grok vs Fugu Ultra

42 shared tasks · 38 scored

Verdict: Fugu Ultra leads 16–14 with 8 ties

Qwen 3.8 vs Grok

42 shared tasks · 38 scored

Verdict: Qwen 3.8 leads 28–10

Qwen 3.8 vs Fugu Ultra

38 shared tasks · 38 scored

Verdict: Qwen 3.8 leads 26–11 with 1 tie

Claude Fable 5 vs Fugu Mini

37 shared tasks · 36 scored

Verdict: Claude Fable 5 leads 22–12 with 2 ties

Claude Opus 5 vs Fugu Mini

37 shared tasks · 36 scored

Verdict: Claude Opus 5 leads 29–7

Fugu Mini vs Muse Spark 1.2

37 shared tasks · 36 scored

Verdict: Muse Spark 1.2 leads 22–14

Fugu Mini vs Opus 4.8

37 shared tasks · 36 scored

Verdict: Fugu Mini leads 20–10 with 6 ties

Fugu Mini vs Gemini 3.6 Flash

37 shared tasks · 36 scored

Verdict: Fugu Mini leads 20–16

Fugu Mini vs Claude Sonnet 5

37 shared tasks · 36 scored

Verdict: Fugu Mini leads 17–16 with 3 ties

Fugu Mini vs Qwen 3.7

37 shared tasks · 36 scored

Verdict: Fugu Mini leads 29–3 with 4 ties

Fugu Mini vs Inkling

37 shared tasks · 36 scored

Verdict: Fugu Mini leads 30–6

Fugu Ultra vs Fugu Mini

37 shared tasks · 36 scored

Verdict: Fugu Ultra leads 18–9 with 9 ties

Fusion vs Fugu Mini

37 shared tasks · 36 scored

Verdict: Fusion leads 25–3 with 8 ties

GLM-5.2 vs Fugu Mini

37 shared tasks · 36 scored

Verdict: Fugu Mini leads 17–13 with 6 ties

GPT-5.6 Sol vs Fugu Mini

37 shared tasks · 36 scored

Verdict: GPT-5.6 Sol leads 29–6 with 1 tie

Hermes MoA vs Fugu Mini

37 shared tasks · 36 scored

Verdict: Hermes MoA leads 26–9 with 1 tie

Kimi K3 vs Fugu Mini

37 shared tasks · 36 scored

Verdict: Kimi K3 leads 25–10 with 1 tie

MiniMax M3 vs Fugu Mini

37 shared tasks · 36 scored

Verdict: MiniMax M3 leads 16–15 with 5 ties

Qwen 3.8 vs Fugu Mini

35 shared tasks · 34 scored

Verdict: Qwen 3.8 leads 26–8

Grok vs Fugu Mini

37 shared tasks · 33 scored

Verdict: Grok leads 14–10 with 9 ties

Claude Fable 5 vs Kimi K2.7

47 shared tasks · 25 scored

Verdict: Claude Fable 5 leads 17–4 with 4 ties

Claude Opus 5 vs Kimi K2.7

47 shared tasks · 25 scored

Verdict: Claude Opus 5 leads 18–7

Fusion vs Kimi K2.7

47 shared tasks · 25 scored

Verdict: Fusion leads 21–1 with 3 ties

GLM-5.2 vs Kimi K2.7

47 shared tasks · 25 scored

Verdict: GLM-5.2 leads 10–6 with 9 ties

GPT-5.6 Sol vs Kimi K2.7

47 shared tasks · 25 scored

Verdict: GPT-5.6 Sol leads 19–6

Grok vs Kimi K2.7

47 shared tasks · 25 scored

Verdict: Grok leads 13–2 with 10 ties

Hermes MoA vs Kimi K2.7

47 shared tasks · 25 scored

Verdict: Hermes MoA leads 16–8 with 1 tie

Kimi K2.7 vs Gemini 3.6 Flash

47 shared tasks · 25 scored

Verdict: Gemini 3.6 Flash leads 14–10 with 1 tie

Kimi K2.7 vs Claude Sonnet 5

47 shared tasks · 25 scored

Verdict: Claude Sonnet 5 leads 12–11 with 2 ties

Kimi K2.7 vs Qwen 3.7

47 shared tasks · 25 scored

Verdict: Kimi K2.7 leads 11–7 with 7 ties

Kimi K2.7 vs Inkling

47 shared tasks · 25 scored

Verdict: Kimi K2.7 leads 19–6

Kimi K3 vs Kimi K2.7

47 shared tasks · 25 scored

Verdict: Kimi K3 leads 16–9

MiniMax M3 vs Kimi K2.7

47 shared tasks · 25 scored

Verdict: MiniMax M3 leads 13–7 with 5 ties

Muse Spark 1.2 vs Kimi K2.7

47 shared tasks · 25 scored

Verdict: Muse Spark 1.2 leads 17–8

Opus 4.8 vs Kimi K2.7

47 shared tasks · 25 scored

Verdict: Opus 4.8 leads 12–6 with 7 ties

Claude Fable 5 vs Fugu Ultra 1.1

24 shared tasks · 23 scored

Verdict: Claude Fable 5 leads 16–5 with 2 ties

Claude Opus 5 vs Fugu Ultra 1.1

24 shared tasks · 23 scored

Verdict: Claude Opus 5 leads 18–4 with 1 tie

Claude Sonnet 5 vs Fugu Ultra 1.1

24 shared tasks · 23 scored

Verdict: Fugu Ultra 1.1 leads 12–10 with 1 tie

Fugu Ultra 1.1 vs Inkling

24 shared tasks · 23 scored

Verdict: Fugu Ultra 1.1 leads 17–5 with 1 tie

Fusion vs Fugu Ultra 1.1

24 shared tasks · 23 scored

Verdict: Fusion leads 22–1

GLM-5.2 vs Fugu Ultra 1.1

24 shared tasks · 23 scored

Verdict: GLM-5.2 leads 12–11

GPT-5.6 Sol vs Fugu Ultra 1.1

24 shared tasks · 23 scored

Verdict: GPT-5.6 Sol leads 15–4 with 4 ties

Gemini 3.6 Flash vs Fugu Ultra 1.1

24 shared tasks · 23 scored

Verdict: tied 11–11 with 1 tie

Hermes MoA vs Fugu Ultra 1.1

24 shared tasks · 23 scored

Verdict: Hermes MoA leads 14–8 with 1 tie

Kimi K3 vs Fugu Ultra 1.1

24 shared tasks · 23 scored

Verdict: Kimi K3 leads 13–8 with 2 ties

MiniMax M3 vs Fugu Ultra 1.1

24 shared tasks · 23 scored

Verdict: MiniMax M3 leads 17–5 with 1 tie

Muse Spark 1.2 vs Fugu Ultra 1.1

24 shared tasks · 23 scored

Verdict: Fugu Ultra 1.1 leads 11–10 with 2 ties

Opus 4.8 vs Fugu Ultra 1.1

24 shared tasks · 23 scored

Verdict: Opus 4.8 leads 12–11

Qwen 3.7 vs Fugu Ultra 1.1

24 shared tasks · 23 scored

Verdict: Fugu Ultra 1.1 leads 12–11

Qwen 3.8 vs Kimi K2.7

42 shared tasks · 22 scored

Verdict: Qwen 3.8 leads 18–4

Fugu Ultra vs Kimi K2.7

42 shared tasks · 20 scored

Verdict: Fugu Ultra leads 12–6 with 2 ties

Grok vs Fugu Ultra 1.1

24 shared tasks · 19 scored

Verdict: Grok leads 14–4 with 1 tie

Qwen 3.8 vs Fugu Ultra 1.1

20 shared tasks · 19 scored

Verdict: Qwen 3.8 leads 10–6 with 3 ties

Fugu Ultra vs Fugu Ultra 1.1

19 shared tasks · 19 scored

Verdict: Fugu Ultra leads 10–8 with 1 tie

Fugu Mini vs Kimi K2.7

37 shared tasks · 18 scored

Verdict: Fugu Mini leads 11–5 with 2 ties

Fugu Mini vs Fugu Ultra 1.1

15 shared tasks · 15 scored

Verdict: Fugu Mini leads 8–6 with 1 tie

Kimi K2.7 vs Fugu Ultra 1.1

24 shared tasks · 12 scored

Verdict: Kimi K2.7 leads 6–5 with 1 tie

Claude Fable 5 vs Hy3

7 shared tasks · 7 scored

Verdict: Claude Fable 5 leads 7–0

Claude Opus 5 vs Hy3

7 shared tasks · 7 scored

Verdict: Claude Opus 5 leads 7–0

Claude Sonnet 5 vs Hy3

7 shared tasks · 7 scored

Verdict: Hy3 leads 4–3

Fusion vs Hy3

7 shared tasks · 7 scored

Verdict: Fusion leads 7–0

GLM-5.2 vs Hy3

7 shared tasks · 7 scored

Verdict: GLM-5.2 leads 7–0

GPT-5.6 Sol vs Hy3

7 shared tasks · 7 scored

Verdict: GPT-5.6 Sol leads 6–1

Gemini 3.6 Flash vs Hy3

7 shared tasks · 7 scored

Verdict: Gemini 3.6 Flash leads 7–0

Hermes MoA vs Hy3

7 shared tasks · 7 scored

Verdict: Hy3 leads 4–3

Inkling vs Hy3

7 shared tasks · 7 scored

Verdict: Hy3 leads 5–1 with 1 tie

Kimi K3 vs Hy3

7 shared tasks · 7 scored

Verdict: Kimi K3 leads 6–1

MiniMax M3 vs Hy3

7 shared tasks · 7 scored

Verdict: MiniMax M3 leads 7–0

Muse Spark 1.2 vs Hy3

7 shared tasks · 7 scored

Verdict: Muse Spark 1.2 leads 7–0

Opus 4.8 vs Hy3

7 shared tasks · 7 scored

Verdict: Opus 4.8 leads 5–2

Qwen 3.7 vs Hy3

7 shared tasks · 7 scored

Verdict: Qwen 3.7 leads 5–2

Fugu Ultra 1.1 vs Hy3

7 shared tasks · 6 scored

Verdict: Fugu Ultra 1.1 leads 4–1 with 1 tie

Grok vs Hy3

7 shared tasks · 6 scored

Verdict: Grok leads 5–1

Kimi K2.7 vs Hy3

7 shared tasks · 6 scored

Verdict: Kimi K2.7 leads 5–1

Qwen 3.8 vs Hy3

6 shared tasks · 6 scored

Verdict: Qwen 3.8 leads 6–0

Claude Fable 5 vs LongCat-2.0

4 shared tasks · 4 scored

Verdict: Claude Fable 5 leads 3–1

Claude Opus 5 vs LongCat-2.0

4 shared tasks · 4 scored

Verdict: tied 2–2

Claude Sonnet 5 vs LongCat-2.0

4 shared tasks · 4 scored

Verdict: LongCat-2.0 leads 4–0

Fugu Ultra vs LongCat-2.0

4 shared tasks · 4 scored

Verdict: LongCat-2.0 leads 3–1

Fusion vs LongCat-2.0

4 shared tasks · 4 scored

Verdict: Fusion leads 4–0

GLM-5.2 vs LongCat-2.0

4 shared tasks · 4 scored

Verdict: LongCat-2.0 leads 2–1 with 1 tie

GPT-5.6 Sol vs LongCat-2.0

4 shared tasks · 4 scored

Verdict: GPT-5.6 Sol leads 3–1

Gemini 3.6 Flash vs LongCat-2.0

4 shared tasks · 4 scored

Verdict: LongCat-2.0 leads 3–1

Hermes MoA vs LongCat-2.0

4 shared tasks · 4 scored

Verdict: LongCat-2.0 leads 3–1

Inkling vs LongCat-2.0

4 shared tasks · 4 scored

Verdict: LongCat-2.0 leads 4–0

Kimi K3 vs LongCat-2.0

4 shared tasks · 4 scored

Verdict: tied 2–2

MiniMax M3 vs LongCat-2.0

4 shared tasks · 4 scored

Verdict: MiniMax M3 leads 3–0 with 1 tie

Muse Spark 1.2 vs LongCat-2.0

4 shared tasks · 4 scored

Verdict: LongCat-2.0 leads 4–0

Opus 4.8 vs LongCat-2.0

4 shared tasks · 4 scored

Verdict: LongCat-2.0 leads 3–1

Qwen 3.7 vs LongCat-2.0

4 shared tasks · 4 scored

Verdict: LongCat-2.0 leads 3–0 with 1 tie

Fugu Ultra 1.1 vs LongCat-2.0

3 shared tasks · 3 scored

Verdict: LongCat-2.0 leads 2–1

Qwen 3.8 vs LongCat-2.0

3 shared tasks · 3 scored

Verdict: LongCat-2.0 leads 2–1

Fugu Mini vs LongCat-2.0

2 shared tasks · 2 scored

Verdict: LongCat-2.0 leads 2–0

Fugu Mini vs Hy3

2 shared tasks · 2 scored

Verdict: Fugu Mini leads 2–0

Fugu Ultra vs Hy3

2 shared tasks · 2 scored

Verdict: tied 1–1

Grok vs LongCat-2.0

4 shared tasks · 1 scored

Verdict: Grok leads 1–0

LongCat-2.0 vs Hy3

1 shared task · 1 scored

Verdict: LongCat-2.0 leads 1–0

Claude Opus 5 vs DeepSeek V4 Flash

50 shared tasks · 0 scored

50 shared tasks · no curated head-to-head yet

Claude Opus 5 vs DeepSeek V4 Pro

50 shared tasks · 0 scored

50 shared tasks · no curated head-to-head yet

DeepSeek V4 Flash vs DeepSeek V4 Pro

50 shared tasks · 0 scored

50 shared tasks · no curated head-to-head yet

GPT-5.6 Sol vs DeepSeek V4 Flash

50 shared tasks · 0 scored

50 shared tasks · no curated head-to-head yet

GPT-5.6 Sol vs DeepSeek V4 Pro

50 shared tasks · 0 scored

50 shared tasks · no curated head-to-head yet

Gemini 3.6 Flash vs DeepSeek V4 Flash

50 shared tasks · 0 scored

50 shared tasks · no curated head-to-head yet

Gemini 3.6 Flash vs DeepSeek V4 Pro

50 shared tasks · 0 scored

50 shared tasks · no curated head-to-head yet

Inkling vs DeepSeek V4 Flash

50 shared tasks · 0 scored

50 shared tasks · no curated head-to-head yet

Inkling vs DeepSeek V4 Pro

50 shared tasks · 0 scored

50 shared tasks · no curated head-to-head yet

Kimi K3 vs DeepSeek V4 Flash

50 shared tasks · 0 scored

50 shared tasks · no curated head-to-head yet

Kimi K3 vs DeepSeek V4 Pro

50 shared tasks · 0 scored

50 shared tasks · no curated head-to-head yet

Muse Spark 1.2 vs DeepSeek V4 Flash

50 shared tasks · 0 scored

50 shared tasks · no curated head-to-head yet

Muse Spark 1.2 vs DeepSeek V4 Pro

50 shared tasks · 0 scored

50 shared tasks · no curated head-to-head yet

Claude Fable 5 vs DeepSeek V4 Flash

47 shared tasks · 0 scored