📢 Gate 广场 TradFi 交易分享挑战上线!
晒单瓜分 $30,000 奖池,新人首帖 100% 中奖!
📌 参与方式:
带 #TradFi交易分享挑战 发帖,满足以下任一即可:
🔹 带今日指定 TradFi 币种标签发帖交流。
🔹 完成单笔大于 $10U 的 TradFi CFD 交易并挂载交易卡片。
🏷️ 今日指定标签:USDJPY、AUDUSD、US30、TSLA、JPN225
🎁 宠粉福利:
1️⃣ 卡片分享奖: 抽 50 人,每人送 $100 仓位体验券!
2️⃣ 发帖榜单奖: 冲排行榜,赢 WCTC 限定 T 恤!
3️⃣ 新粉见面礼: 新人首次发帖,100% 领 $10 体验券!
详情:https://www.gate.com/announcements/article/51221
哪个模型在扑克中最强?
基准测试很棒,但它们并不有趣,我想让模型进行面对面的竞争
背景:几周前我建立了一个代理扑克引擎,想看看哪个代理更厉害——Hermes 还是 OpenClaw
Hermes 赢了第一场,然后我让它们进行100场(一局)德州扑克的对决
结果?正好50-50,没有一方在开箱即用时明显更优
我在这100场比赛中使用了各种模型来增加变化,注意到一些趋势,所以昨晚我举办了一场锦标赛,看看哪个模型在扑克中最强
流程如下:
> 8个模型
> 模型对模型的面对面比赛
> 最佳7局制,决定胜者
> 每场比赛直到一方破产或进行100手牌
第一轮后:
> GPT-5.5 (#1 seed) beat Qwen 3.6 (#8 种子) 4-0
> Opus 4.7 (#2 seed) beat GLM-5.1 (#7 种子) 4-1
> Kimi K2.6 (#6 seed) beat Grok 4.3 (#3 种子) 4-3
> Gemini 3.1 (#4 seed) beat DeepSeek V4 (#5 种子) 4-2
没有什么意外,唯一的“冷门”是 Kimi 战胜 Grok,比赛进行了全部7场
今天进入半决赛