寻找视觉处理大佬,多目标 mask 跟踪, SAM2, CoTracker3 / TAPIR (点跟踪)等
自己在做一个牌类游戏过程的视觉跟踪学习项目, 想把麻将一次完整洗牌前 40 张牌的位置追踪到洗牌结束, 输出”洗牌前 → 洗牌后”的位置对应表. 类似学术里 shell game / cups-and-balls tracking 的视觉问题, 目标数 = 40 , 纯学习 + 探索 SOTA 边界, 已经啃了一遍 YOLO/ByteTrack/SAM2 文献, 但实操遇到瓶颈, 想请教各位.
┌──── 输入: 单视角 RGB 1080p@25fps ────┐ │ │ │ pre 段 (静止) │ │ ● ● ● ● ● ● ● ● ● ● ← 40 张牌 │ │ ● ● ● ● ● ● ● ● ● ● (位置/身份 │ │ ● ● ● ● ● ● ● ● ● ● 都已知) │ │ ● ● ● ● ● ● ● ● ● ● │ │ │ │ ↓ 洗牌 60-120s │ │ ░ ▓ ░ 手覆盖 60-80% 帧 ░ ▓ ░ │ │ 牌频繁互相遮挡 + 翻面 + 滑动 │ │ ↓ │ │ │ │ post 段 (静止) │ │ ? ? ? ? ? ? ? ? ? ? ← 40 张牌 │ │ ? ? ? ? ? ? ? ? ? ? (位置已知, │ │ ? ? ? ? ? ? ? ? ? ? 求映射回 │ │ ? ? ? ? ? ? ? ? ? ? pre 身份) │ │ │ └──────────────────────────────────────┘
难点 (按破坏性排序) 40 个目标外观高度相似 — 没有 re-ID 特征, 背面同色; 不像行人有衣服, 车辆有车牌 持续密集遮挡 — 一只/两只手覆盖 60-80% 帧, 单牌完全遮挡可持续 1-3 秒 频繁翻面 + 旋转 — 外观跳变, 视觉特征短时不稳 严格目标数上限 = 40 — 不能新增 (新 ID 一定是 ByteTrack 错了) 信息论根本极限 — 完全被手压住时, 单视角 RGB 没有该牌的任何线索 已试方案 + 失败模式 管线 状态 失败原因 ──────────────────────────────────────────────────────────── YOLO11-Seg 检测 ✓部分 静态准, 密集遮挡漏检 ↓ ByteTrack 短时关联 ✗ 60s 累积 1942 ID (理应 40)
卡尔曼+IoU 假设被遮挡彻底破坏
↓ 匈牙利 + lost-recovery 跨段 ✗ 中段 cost matrix 信号退化为噪声
强制 ID 上限 40 也救不回
↓ 关键帧聚类 (pre/post 各自) ✓ 静止聚类可以精确出 40 位置 ↓ 跨段匹配 (pre 40 ↔ post 40) ✗ 中段无信号, 等价随机映射 ↓ 人工逐帧 fallback (PySide6) ✓ 但 ~60 min/副, 成本不可接受 ByteTrack ID 累积大致这样:
理想: ──────────── 40 (上限) 实际: ▁▂▃▄▅▆▇▇████████████ 1942
0s 30s 60s
↑ 每次遮挡断开就开一个新 ID
前在考虑的 SOTA 路线
SAM 2 video predictor (Meta 2024) — 用 pre 40 位置作为 40 个 box prompt, 整段自动跟 mask Cutie / DAM / MASA — 长 memory VOS 网络, 学术上比 SAM2 更稳 CoTracker3 / TAPIR 点跟踪 — 牌中心点跟踪, 不跟 mask 手部物理推断 — HaMeR 估 3D 手势 + 接触推断, 覆盖完全遮挡段 ProPainter 擦除手 — 让 SAM 2 在更多帧”看见目标” 半自动 interactive annotation — 算法跟 60-80%, 人工巡视修正 20-40%, 目标压到 10-15 min/副 想请教的问题 做过类似的人: surgical instrument tracking, sports player tracking (足球/篮球队员同队服), shell game CV 的同行, 你们最后落在哪个技术栈? SAM 2 实战表现: 在”40 个相似目标 + 密集遮挡”这种 regime, memory bank 会不会失效? 有没有人压测过 50+ 目标的并行? VOS 模型选型: Cutie / DAM / MASA 这几个在长视频 + 多目标的实际差异? 半自动工具栈: CVAT / Roboflow 之外, 有没有更专门的”算法跟踪 + 人工修正”工具? (现在自己撸了一个 PySide6 的, 但比较粗糙) 有没有更适合的 SOTA 我完全没想到 (比如基于 3D scene flow / event camera / NeRF tracking 的思路)? 非常希望听到一线的实践经验, 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.