GoForum › 🌐 V2EX
解决了一个有趣的技术难题:如何让 PiP 不读取自己的文字
Maxwin ·
2026-03-27 10:24 ·
0 次点赞 · 0 条回复
做 TransPeek 的时候遇到一个很有意思的问题:PiP 悬浮窗显示翻译结果 → ReplayKit 捕获整个屏幕(包括 PiP )→ OCR 识别到 PiP 里的文字 → 翻译引擎把翻译结果再翻译一遍 → 循环。
这个问题如果不解决,用户看到的就是一堆乱七八糟的重复翻译。
思路
核心问题:在 ReplayKit 捕获的帧中,找到 PiP 窗口的位置,把这块区域从 OCR 输入中排除。
难点:
- Extension 是独立进程,不知道 PiP 的坐标
- PiP 可以被用户拖动到屏幕任意位置
- 不能用 accessibility API ( Extension 没有权限)
所以只能通过图像本身来检测。
方案一:帧差分检测
给 PiP 加一个动画彩虹边框,色相每 4 秒旋转一周。这意味着连续两帧之间,PiP 边框的像素颜色一定会变化,而且颜色鲜艳(高饱和度)。
for 每个像素 (x, y):
diff = abs(frame_n[x,y] - frame_n-1[x,y])
if diff > threshold AND saturation(frame_n[x,y]) > 0.5:
candidate_pixels.append((x, y))
// 对候选像素的 x 、y 坐标做统计
// 中位数确定中心,四分位数确定边界
bounds = computeBoundsFromQuantiles(candidate_pixels)
优点:只要边框在动,就能检测到。 缺点:需要两帧才能检测,启动时第一帧无法检测。
方案二:模板匹配检测
对于纯色边框(红、蓝、绿等),单帧就能检测。
逻辑:
- 扫描帧中的特定颜色像素
- 找到连通区域
- 验证尺寸(约 800x400px @ 3x )
- 验证宽高比( 1.2-3.0 )
- 验证边缘像素浓度(边框的特征是颜色集中在边缘)
候选区域面积验证 → 宽高比验证 → 边缘浓度验证 → 通过
稳定性
两套算法的结果还需要做稳定性处理:
- 位置抖动过滤:偏移 < 6px 视为不动
- 丢失容忍:连续 3 次未检测到才清除位置( 1fps 就是 3 秒容忍)
- 横竖屏切换:立即重置所有状态,重新检测
实际效果
调参花了不少时间,但最终效果还不错。彩虹边框在绝大多数背景下都能被检测到,纯色边框在颜色不冲突的场景也很稳定。用户可以根据使用场景选择边框样式。
这个问题让我意识到,有些看起来简单的需求,背后的技术挑战其实很有趣。如果有更好的方案欢迎讨论。
0 条回复
添加回复
你还需要 登录
后发表回复