现有面瘫临床评估(如 House-Brackmann 量表)依赖医生主观打分,评分者间一致性有限,且无法捕捉动态运动过程中的细粒度差异。本项目探索以 iPhone TrueDepth 前置摄像头为采集终端,通过 ARKit 面部追踪框架获取结构化面部运动数据,构建客观、可量化的面部运动分析流程。
核心共识:以 RGB 采集为主,TrueDepth 深度摄像头为可选增强。 RGB 图像获取门槛低、数据量充足,作为主要输入模态;Depth 数据在需要绝对物理位移或三维几何形变的分析场景中作为补充引入,不强制依赖。ARKit 可基于 TrueDepth 实时重建人脸三维网格(约 1220 个顶点)并识别面部表情,输出 52 个 Blendshape 系数,为面部动作的结构化量化提供高层语义接口。
参考文献: Utilization of Smartphone Depth Mapping Cameras for App-Based Grading of Facial Movement Disorders(核心可行性论文);CNN-based Facial Paralysis Classification(Nature Scientific Reports, 2025)。
核心代码库: DynaFace(核心论文配套 GitHub 项目,提供可运行的面部追踪与 Blendshape 采集管线,本项目主体流程以此为基础)。
前端数据采集涉及三条数据模态,直接决定后续特征提取方式与分析粒度。
- 本质:标准彩色图像序列,通过前置摄像头(AVFoundation
AVCaptureVideoDataOutput)或 ARKit session 同步获取,是三种模态中信息密度最高、获取门槛最低的数据源。 - 数据结构:
- 静态帧:
CVPixelBuffer(BGRA),单帧可导出为.jpg/.png。 - 视频序列:
.mp4/.mov,帧率通常为 30 或 60 fps。
- 静态帧:
- 分析能力:
- 2D 关键点检测:ARKit 在输出 Blendshape 的同时同步提供 RGB 帧,可结合 Face Mesh 顶点的投影坐标,在像素坐标系下计算左右不对称度。
- 纹理与外观特征:分析面部纹理梯度、皮肤色差,提取外观层面的静息态不对称。
- 光流分析(Optical Flow):通过帧间光流场量化局部面部区域的运动速度与方向,无需关键点即可检测不对称动作。
- 局限:所有基于 RGB 的几何测量均在投影像素坐标系下进行,无绝对物理尺度,需结合 Depth 或 Face Mesh 的三维坐标才能还原真实位移。
- 本质:ARKit 提供经苹果闭源模型处理的语义输出,融合 RGB 与 Depth 推算得出,属于高层封装。
-
数据结构:
-
Blendshapes:52 维面部动作单元系数(
.csv),取值范围$0.0 \sim 1.0$ 。 -
Face Mesh:约 1220 个顶点的 3D 拓扑网格(
.obj/.ply)。
-
Blendshapes:52 维面部动作单元系数(
-
评估:
- 优势:已完成人脸对齐与动作解耦,可直接用于实时交互原型开发。
- 局限:系数无绝对物理尺度,难以转化为真实物理位移(如毫米级偏移),在需要绝对物理几何的医学测量场景中存在不确定性。
官方数据结构 — ARFaceAnchor.BlendShapeLocation
// ARFaceAnchor.blendShapes — 52 个 key,取值 0.0 ~ 1.0
var blendShapes: [ARFaceAnchor.BlendShapeLocation: NSNumber]
// 眼 (14):eyeBlinkLeft/Right, eyeLookDown/In/Out/UpLeft/Right, eyeSquint/WideLeft/Right
// 眉 (5): browDownLeft/Right, browInnerUp, browOuterUpLeft/Right
// 颌 (4): jawForward, jawLeft, jawRight, jawOpen
// 脸颊(3):cheekPuff, cheekSquintLeft/Right
// 嘴唇(19):mouthSmileLeft/Right, mouthClose, mouthFunnel, mouthPucker, ...
// 鼻 (2): noseSneerLeft/Right
// 舌 (2): tongueOut, tongueUp图 1. ARKit 面部追踪与网格可视化示例,展示前置摄像头下的人脸实时跟踪效果。
- 本质:通过 AVFoundation 获取的物理测距数据,直接反映真实几何形变。
-
数据结构:
-
Depth Map:2D 矩阵(如
$640 \times 480$ ),数值为物理距离(单位:毫米或米),序列帧保存为.npy或无损.tiff。
-
Depth Map:2D 矩阵(如
-
分析能力:
-
点云转化(Point Cloud):结合相机内参,深度矩阵映射为带
$(x, y, z)$ 绝对坐标的三维点云。 -
真实几何形变:可直接计算特征点在 3D 空间中的欧氏距离位移(如嘴角实际位移
$12.5\text{ mm}$ )。 -
体积变化(Volume Change):通过 ICP 算法对齐点云,测量
cheekPuff等动作引起的局部物理体积差异。
-
点云转化(Point Cloud):结合相机内参,深度矩阵映射为带
官方数据结构 — AVDepthData
class AVDepthData {
var depthDataMap: CVPixelBuffer // Float32,单位:米,分辨率通常 640×480
var depthDataType: AVDepthData.DataType // .depth | .disparity
var isDepthDataFiltered: Bool
var cameraCalibrationData: AVCameraCalibrationData?
// └─ intrinsicMatrix: matrix_float3x3 fx, fy, cx, cy → 还原 3D 点坐标
}图 2. 前置 TrueDepth 数据的多视图示例,上方为 RGB / 边缘视图,下方为对应的深度图与深度变化分布。
图 3. 将前置深度图进一步重建为三维点云后的可视化效果。
❓ 用嘴角实际移动了多少毫米来衡量面瘫程度,"移动多少算严重"这个阈值有没有现成文献定义过,还是我们可以自己来给出第一个参考值? ❓ 把 RGB 和 Depth 结合起来,能不能看到单独用一种数据看不到的现象——比如脸部体积的变化和表面运动幅度并不同步?
(采集端约束:无论采用何种数据源,须在底层处理前置摄像头镜像问题,确保数据标识的 Left 严格对应被试的物理左脸。)
本项目核心数据采集与基础分析流程基于 DynaFace 构建。本节所列方法为在此基础上的额外拓展创新点,不代表主体流程,可根据课程项目的深度需求选择性实施。
基于时间序列数据,可提取以下定量特征:
- 最大振幅差异 (Amplitude Asymmetry):$\max(L) - \max(R)$。
-
速度响应差异 (Velocity Difference):$\frac{dL}{dt}$ vs
$\frac{dR}{dt}$ ,量化患侧的响应延迟与运动加速度衰减。 -
相位延迟 (Phase Shift):动作启动后,左右两侧特征值开始显著变化的时间差
$\Delta t$ 。
❓ 动作的“加速过程”是否也能作为一个有用特征? ❓ 相位延迟
$\Delta t$ 能否帮助区分中枢性和周围性面瘫?
- 真实几何不对称性:计算配准后的深度差值 $\text{depth}\text{left}(x,y) - \text{depth}\text{right}(x,y)$,量化面部结构的静息态偏斜。
-
3D 运动轨迹偏移:追踪特定面部区域(如下巴尖、嘴角)的三维运动路径
$(x(t),\ y(t),\ z(t))$ 。 -
4D 时空热力图:整合空间与时间维度,构建
$A(x,y,z,t)$ ,可视化动作执行全周期的非对称演变。
❓ 4D 时空热力图目前在面瘫文献中几乎未见应用,将动作执行的全时程以可视化形式呈现,是否可以作为本研究的视觉化创新贡献,并为临床医生提供比单一评分更直观的信息?
基于深度序列进行端到端模型训练
- 视频序列分类 (3D CNN):输入连续深度矩阵序列,进行严重程度分级或分类。
- 自监督学习 (Self-Supervised Learning):以下一帧预测任务隐式学习面部运动的动力学模式。
- 表征学习 (Representation Learning):提取 Face Motion Embedding,将连续深度流压缩为潜变量,用于无监督异常检测或聚类分析。
❓ 将深度序列作为 3D CNN 输入在面瘫检测中属于较新的尝试,现有工作主要基于 RGB。若能证明 Depth 序列作为单一输入模态即可达到与 RGB 相当甚至更高的分类精度,这本身就构成一个独立的创新贡献点,是否值得作为主要研究问题? ❓ 在 5~10 名被试、5 类动作的小规模数据上,让模型自动学到的面部运动"特征向量"能不能把正常和模拟异常的动作分开?如果可视化后确实分得开,这个结果能不能作为课程作业的核心结论?
本研究框架不局限于面瘫单一病种,其核心方法(面部多模态采集 + 动态不对称量化)可向多个临床与消费场景迁移。
- 问题场景:TMJ 患者张口时下颌轨迹偏斜(正常为直线,异常为 C 型或 S 型偏移),目前评估依赖医生用游标卡尺测量开口度,主观且仅记录单一数值。
-
本框架的切入点:利用 ARKit
jawOpen+ 3D 点云追踪,以$(x(t), y(t), z(t))$ 连续记录下颌从闭合到最大张口的完整三维运动轨迹。 -
可量化指标:
- 轨迹最大侧向偏移量(毫米)
- 轨迹曲率均值(区分直线 / C 型 / S 型)
- 开口与闭口路径的重合度(运动对称性)
-
实例:被试 A 在
jawOpen动作中,下颌尖在 x 轴方向偏移 4.2 mm,轨迹曲率 0.18 rad/mm,判定为轻度侧偏。
图 4. TMJ 正常张口运动示意图,可作为下颌轨迹偏斜分析的参考。 来源:Beverly Hills TMJ Headache Pain, https://www.beverlyhillstmjheadachepain.com/tmj-muscle/tmj/tmj-animation-images/
❓ 现有 TMJ 研究主要依赖静态开口度,引入完整三维轨迹曲率作为新指标,是否可以发现开口度正常但轨迹异常的早期 TMJ 患者(即增加检测灵敏度)?这是否值得作为本研究的独立创新点之一?
- 问题场景:帕金森早期的"面具脸"(Hypomimia)表现为面部表情幅度整体减弱、自发眨眼减少,但现有临床量表(UPDRS-III)对面部子项评分粒度不足。
- 本框架的切入点:在静息状态及情绪刺激(如看图片)下,连续记录面部 Blendshape 时间序列,计算整体运动方差与自发眨眼频率。
- 可量化指标:
- 5 分钟静息状态下所有 Blendshape 参数的总方差(运动活跃度)
- 自发眨眼频率(次 / 分钟)及单次眨眼的幅度(
eyeBlinkLeft/eyeBlinkRight峰值) - 情绪刺激前后面部反应幅度差(情绪反应性)
- 实例:健康对照组静息面部总运动方差约为 0.043,模拟面具脸(被试刻意减少表情)组降至 0.011,差异显著。
图 5. Parkinson's disease 中 hypomimia 的经典面容示意,可对应“面具脸”概念。 来源:Wikimedia Commons, https://commons.wikimedia.org/wiki/File:Drawing_of_face_of_parkinsons_disease_patient_showing_hypomimia.jpg
❓ "面具脸"早筛目前在临床上没有简便的客观工具,如果本研究能够给出健康人的面部运动方差基线范围,是否已经具备作为课程作业创新点的充分价值?后续如何设计实验来验证该指标的敏感性?
- 问题场景:现有 House-Brackmann(HB)量表为 6 级主观评分,评分者间一致性有限(Kappa 约 0.6~0.7)。
- 本框架的切入点:对五类标准动作(静息、抬眉、闭眼、微笑、鼓腮)分别计算左右两侧关键 Blendshape 的不对称系数,与 HB 分级做相关分析。
- 可量化指标:
- 综合不对称指数(Composite Asymmetry Index, CAI):各动作不对称系数的加权均值
- 患侧最大激活率:患侧峰值 / 健侧峰值
- 实例:HB II 级患者微笑时
mouthSmileLeftvsmouthSmileRight差值约 0.22,HB IV 级患者差值约 0.61。
图 6. 面部左右不对称的示例图,可直观对应面神经麻痹分级中的严重程度差异。 来源:Orthopractis 3D Face Asymmetry App, https://www.orthopractis.com/3d-face-asymmetry-app
❓ 如果能用健康被试的模拟数据,初步看出"不对称数值高低"和"人眼判断的严重程度"之间有规律,这个发现是否足够作为课程 pilot study 的核心结论?
- 问题场景:正畸、削骨、肉毒素注射等术后对称性评估主要依赖二维照片对比,缺乏客观三维量化。
- 本框架的切入点:在术前、术后各时间节点(如术后 1 周、1 个月、3 个月),采集同一被试的 Depth 数据,生成左右脸三维热力图,计算体积差值变化曲线。
-
可量化指标:
- 左右脸体积差($\text{cm}^3$)随时间的恢复曲线
- 特定 ROI(感兴趣区域,如颧骨区、下颌角)的局部深度差分布
图 7. 基于三维面部网格的术后对称性分析界面示例,更适合表达术后几何量化评估场景。 来源:Orthopractis 3D Face Asymmetry App, https://www.orthopractis.com/3d-face-asymmetry-app
❓ 将智能手机 Depth 从医学诊断延伸到消费级美容术后自我监测,是否代表一种新的产品化方向?用户是否真的需要客观三维数据,还是主观满意度更重要——二者之间的关系值得探讨。
-
原理:传统镜像疗法用于肢体康复,让患者看到患肢"正常运动"的镜像视觉反馈,激活运动皮层。面部版本:实时读取健侧
$(L)$ 的 ARKit 数据,对称地驱动 3D 虚拟头像的患侧$(R)$ ,使患者在屏幕上看到"双侧同步运动"的虚拟脸。 - 实施流程:
- 采集被试健侧实时 Blendshape 流
- 镜像映射:
mouthSmileLeft→mouthSmileRight(虚拟) - 实时驱动 3D 头像渲染,延迟 < 50 ms
- 患者跟随虚拟反馈尝试做出对称动作,记录训练数据
- 实例:患者尝试微笑,健侧
mouthSmileLeft= 0.72,虚拟患侧同步显示 0.72,而真实患侧mouthSmileRight仅为 0.18——视觉与本体感觉的差异形成训练驱动力。
图 8. 面向面部康复的移动端扫描 / 反馈界面示例,可类比 VR 镜像疗法中的视觉反馈入口。
❓ 现有镜像疗法依赖专用 VR 设备,成本高、门槛高,用普通 iPhone 实现同样效果——这种"把专业设备变成手机应用"本身是否就是足够清晰的创新点?
- 原理:将面部动作转化为游戏输入信号,在完成游戏目标的同时完成康复训练动作。
- 设计示例:
eyeBlinkLeft控制飞船开炮(训练左眼闭合)mouthSmileRight控制角色跳跃(训练患侧微笑)browInnerUp控制障碍物高度(训练额肌)
- 采集的训练进展数据:
- 各动作幅度随训练轮次的提升曲线
- 运动平滑度(连续帧间方差)
- 达到目标幅度所需时间(响应速度)
- 实例:被试经过 10 次训练后,
mouthSmileRight峰值从 0.18 提升至 0.31,响应时间从 1.2 s 缩短至 0.7 s,可量化为康复进展曲线。
图 9. “My Face Game” 面部康复游戏板示意图,更能体现将训练动作映射为游戏任务的思路。 来源:Oxford University Hospitals NHS Foundation Trust, https://www.ouh.nhs.uk/media/yfpjq2tb/facial-palsy-game-board.pdf
本项目主要依赖互联网公开数据集。结合目前能查到的公开页面、论文和数据仓库,和面瘫 / 面部运动异常最相关的数据资源可整理如下。
| 数据集 | 链接 | 规模 | 主要内容 | 备注 |
|---|---|---|---|---|
| Kaggle Facial Droop and Facial Paralysis Image Dataset | https://www.kaggle.com/datasets/kaitavmehta/facial-droop-and-facial-paralysis-image | 1,024 张图像 | 面部下垂 / 面瘫相关静态人脸图像,来自网络图片整理,尺寸不统一。 | 适合做静态图像分类或可视化示例。 |
| YouTube Facial Palsy (YFP) Database | https://sites.google.com/view/yfp-database / https://github.com/AvLab-CV/YouTube-Facial-Palsy-Database | 32 段视频;官方说明中患者人数写法有 21 / 22 两种口径 | YouTube 面瘫视频,转换为 6 FPS 图像序列,并由临床医生标注病灶区域、强度和眼 / 口类别。 | 是较经典的公开视频级面瘫数据集,需要申请密码下载。 |
| MEEI Facial Palsy Photo and Video Standard Set | https://pubmed.ncbi.nlm.nih.gov/31021433/ | 60 名参与者,480 张高分辨率图像 | 包含正常、flaccid palsy、nonflaccid palsy 三组,被试完成 8 类标准面部动作。 | 论文同时说明还配有标准化视频,适合做分级和动作分析。 |
| AFLFP (Annotated Facial Landmarks for Facial Palsy) | https://pure.port.ac.uk/ws/portalfiles/portal/58532320/A_Database_with_Annotated_Facial_Landmarks_for_Facial_Palsy_pp.pdf | 88 名受试者,约 5,632 张图像 | 16 类不对称面部表情,每张图像带 68 个手工标注关键点。 | 很适合做 landmark detection、对称性分析和关键点基线实验。 |
| Palda Dataset | https://arxiv.org/abs/2201.11852 | 103 张周围性面瘫图像 + 40 张中枢性面瘫图像 + 60 张健康图像 | 用于区分 peripheral palsy、central palsy 和健康人的静态图像数据。 | 很适合研究 Bell's palsy 与 Stroke 的区分问题。 |
| UPFP-SG Dataset | https://www.iiplab.net/upfp-sg/ | 59 名患者 | 单侧周围性面瘫视频图像数据,由多位医生依据改进分级体系进行盲法标注,强调不同面神经分支的严重程度。 | 更偏向“分支级别严重度评估”,研究价值很高。 |
| Toronto NeuroFace Dataset | https://slp.utoronto.ca/faculty/yana-yunusova/speech-production-lab/datasets/ | 261 段视频,3,300+ 标注帧 | ALS、Stroke 和健康对照的口面部动作视频,并附有临床评分和部分人工 landmark 标注。 | 不是纯面瘫数据,但很适合“神经系统面部运动异常”方向。 |
| Stroke_face Dataset (Roboflow) | https://universe.roboflow.com/stroke-aware/stroke_face-6sqpf/dataset/2 | 2,937 张图像 | 二分类数据集,类别为 Stroke / non,页面给出 train / valid / test 划分。 |
获取方便,适合快速搭建分类 baseline。 |
| FNP Detection (Bell's Palsy) Dataset (Roboflow) | https://universe.roboflow.com/mariam-rwaished/fnp-detection-bell-s-palsy-2ypnw | 524 张图像 | 8 个检测类别,包括 normalEye、normalMouth 以及轻 / 中 / 重度的 paralyzed eye / mouth。 |
适合做 object detection 或局部病灶区域检测。 |
| palsynet-data (Hugging Face) | https://huggingface.co/datasets/jasir/palsynet-data | Hugging Face 页面标记为 10K<n<100K 规模级别 | 由公开视频整理出的 Bell's palsy 面部数据,并包含正常人数据;数据卡说明可从视频提取帧做图像训练。 | 文档比前几个数据集简单,但作为补充资源值得记录。 |
- Kaggle 数据集:优点是最容易获取,下载和试验成本最低。缺点也很明显,它基本是静态图像集合,缺少视频时序、深度信息和统一的临床标注,因此更适合作为课程项目中的“入门数据集”。
- YFP 数据集:这是比较有代表性的公开视频面瘫数据集,价值在于它不是单张照片,而是连续说话视频,因此更接近真实临床观察场景。其医生标注还覆盖病灶区域和强度,适合做局部分析与视频级判断。
- MEEI 数据集:这个数据集的优势是动作标准化程度高。被试完成固定的 8 类动作,同时论文中还结合 eFACE、House-Brackmann 和 Sunnybrook 等量表,因此很适合作为“临床评分映射”方向的参考数据。
- AFLFP 数据集:如果研究重点是关键点、左右对称性、面部几何特征,那么 AFLFP 很重要,因为它直接提供了 68 点人工标注。相比只给分类标签的数据集,它更适合做精细面部分析。
- Palda 数据集:它的价值在于不只关心“有无面瘫”,而是进一步区分 周围性面瘫 和 中枢性面瘫。这和本文前面提到的 Bell's palsy 与 Stroke 区分问题直接相关,因此比普通二分类图像数据更贴题。
- UPFP-SG 数据集:这个数据集比普通“有无面瘫”分类更进一步,强调不同面神经分支的严重程度评估。对于想做更细粒度医学解释的研究,它比单纯二分类数据更有价值。
- Toronto NeuroFace:它的重点不是 Bell's palsy,而是更广义的神经系统面部运动障碍,包括 ALS 和 Stroke。若项目后续从“面瘫检测”扩展到“神经疾病相关面部运动分析”,这个数据集非常值得保留。
- Roboflow Stroke_face:它的优势是现成有划分,拿来就能训练分类模型,适合快速出 baseline。缺点是医学背景和标注细节比较少,适合作为工程实验数据,不适合直接当作高质量临床标准。
- Roboflow FNP Detection:这个数据集比普通分类更接近病灶定位任务,因为它把眼部和口部不同严重程度分开标出来。如果后续想做“患侧区域自动框选”或“局部严重程度识别”,它会更有针对性。
- palsynet-data:它的定位比较像公开视频整理版的 Bell's palsy 数据资源,适合补充样本量。由于公开说明较少、元数据不如前几个规范,使用时需要自己额外核实数据清洗规则和标签可靠性。
除上述直接和面瘫相关的数据外,如果考虑本文前面提到的帕金森面具脸、RGB + Depth 多模态、4D 面部运动、ARKit / Blendshape 映射等拓展方向,还可以额外关注以下数据集:
| 数据集 | 链接 | 规模 | 主要内容 | 与本文拓展部分的关系 |
|---|---|---|---|---|
| Parkinson Smile Video Dataset | https://arxiv.org/abs/2308.02588 | 1,059 名参与者 | 基于 smile video 的帕金森筛查研究数据,用于分析 hypomimia。 | 对应文中“帕金森面具脸”拓展方向。 |
| DISFA / DISFA+ | https://mohammadmahoor.com/pages/databases/disfa/ / https://www.mohammadmahoor.com/pages/databases/disfa_plus/ | 27 名受试者 | 高分辨率视频,带 AU 强度标注和 66 个 landmark;DISFA+ 还加入扩展表情任务。 | 适合做 AU、对称性和局部动作强度分析,也适合和 ARKit Blendshape 做映射。 |
| BP4D+ | https://binghamton.technologypublisher.com/tech?title=BP4D~_Multimodal_Spontaneous_Emotion_Database | 140 名参与者 | 同步采集 3D、2D、thermal、physiological 的多模态面部数据库。 | 适合做 RGB + Depth / Thermal 多模态方法参考。 |
| 4DFAB | https://ibug.doc.ic.ac.uk/resources/4dfab/ | 180 名受试者,超过 1,800,000 个 3D meshes | 大规模 4D 动态高分辨率 3D 人脸数据库,包含 posed 和 spontaneous facial behaviours。 | 对应文中 3D 轨迹、4D 时空热力图、mesh 分析等方向。 |
| FEAFA / FEAFA+ | https://arxiv.org/abs/1904.01509 / https://arxiv.org/abs/2111.02751 | FEAFA: 122 名参与者,99,356 帧标注;FEAFA+: 150 段视频,230,184 帧标注 | 对称 / 非对称 AU 浮点强度标注数据,适合细粒度表情分析和 facial animation。 | 非常适合和 ARKit 的 52 维 Blendshape 做概念对应。 |
| MIntPAIN | https://vap.aau.dk/mintpain-database/ | 20 名受试者 | 公共 RGBDT(RGB、Depth、Thermal)面部视频数据库,按 pain level 分级。 | 虽然不是面瘫数据集,但对“Depth + RGB 多模态流程验证”很有帮助。 |







