GoForum🌐 V2EX

麻将洗牌 40 张牌跟踪, YOLO+ByteTrack 累积 1942 ID, SAM 2 / Cutie / CoTracker3 哪个能救?

ydt0728 · 2026-05-27 20:53 · 0 次点赞 · 8 条回复

学习项目. 单视角 RGB 1080p@25fps, 洗牌 60-120s, 求洗牌前 → 洗牌后 40 张牌的位置映射.

数据特点

40 张牌外观近似, 无 re-ID 特征, 背面同色 手覆盖 60-80% 帧, 单牌可完全遮挡 1-3s 频繁翻面, 严格目标数上限 = 40 已试 + 失败

YOLO11-Seg 检测 ✓ 静态准, 密集叠加漏 ByteTrack ✗ 60s 累积 1942 ID (理应 40), 卡尔曼+IoU 假设被遮挡彻底破坏 匈牙利 + lost-recovery 跨段匹配 ✗ 中段 cost matrix 退化为噪声 人工逐帧 fallback ✓ 但 60 min/副, 成本太高 在看的方案 SAM 2 video predictor / Cutie / DAM / MASA / CoTracker3 / TAPIR / HaMeR (3D 手部 pose) / ProPainter (擦手部)

求建议

玩过 SAM 2 / Cutie / CoTracker3 实战, 或做过 surgical instrument tracking / 同队服球员跟踪 / shell game 视觉问题的同行 — 哪条路在”40 个相似目标 + 持续遮挡”这个 regime 最稳? 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.

8 条回复
thedog · 2026-05-27 20:58
#1

你们是在做老千牌桌吗

thedog · 2026-05-27 20:58
#2

真是赚钱的项目

ydt0728 · 2026-05-27 21:03
#3

@thedog 老千牌桌就不需要用这么复杂的视觉了。直接标记或者 frid 芯片了。纯研究

Perchouli · 2026-05-27 21:18
#4

好玩,想起之前看过的一个研究:vetbench.github.io Can Vision-Language Models Solve the Shell Game 它是用三仙归洞的案例,和 [遮挡+目标跟踪] 这个类似。不过它是想说 LLM 对于状态记忆的问题,提出了 SGCoT ,类比麻将就是记住牌的 [物体的运动轨迹] 。40 张麻将牌要复杂得多,我不是做 CV 的,不太懂。

Tink · 2026-05-27 21:28
#5

有兴趣,关注关注

sduoduo233 · 2026-05-27 21:38
#6

有示例视频吗 想试试

moudy · 2026-05-27 21:48
#7

这个不抗麻将机攻击啊

ydt0728 · 2026-05-27 22:18
#8

@sduoduo233 V:YnB0ODE4==

添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: ydt0728
发布: 2026-05-27
点赞: 0
回复: 0