情绪控制器 | Speech Graphics Knowledge Base

脸部动作捕捉解决方案是从真实演员身上复制动作，相比之下，SGX 是一种程序解决方案，这意味着它能生成情绪。由于它具有生成性, 因此它能提供的不仅仅有自动化。它还能让动画师有机会指导角色的表演，从而实现创造性的控制。使用动作捕捉时，演员处于控制地位，而使用 SGX 时，动画师则处于控制地位。

在 SGX 工作流程的各个阶段都可以对角色情绪进行指导：

处理前：通过文本中的标记（请参阅情绪标记）
处理中：通过应用于批量或单个 event 的处理参数（请参阅 SGX Director 和 SGX Producer）
处理后：通过编辑情绪元数据（请参阅编辑 Events）

情绪控制器有两种类型：模式和修改器。这些内容将在下文进行说明。

情绪模式

使用单个标签，情绪模式就可以轻松决定角色的情绪。在动画过程中的任何时间点，角色都处于某种情绪模式。情绪模式定义是角色设置的一部分，请参阅情绪模式了解概述。简而言之，情绪模式包含反映该模式的各种表情。例如，如果您有一个情绪模式“快乐”，那么您就会在该模式下填充各种快乐的表情。当角色处于某种情绪模式时，它会从该模式中提取表情，并根据 SGX 算法确定的时间和动态自动部署这些表情。

情绪模式可以对应情绪或身体状态，如“快乐”、“愤怒”、“疲惫”或“挣扎”。角色的情绪模式集是开放式的：您可以定义任意数量的情绪模式。

每个角色都有一个默认情绪模式，如果没有指定其他情绪模式，角色就会激活该模式。

下面是一个不断变化情绪模式的动画示例。当角色说话时，当前的情绪模式会打印在角色上方（作为“情绪”）。

自动模式

虽然 SGX 允许创造性的指导，但其目的还是为了大规模制作优秀的动画。因此，SGX 会使用 AI 来检测几种声音特质，从而触发称为自动模式的自动情绪模式。自动模式可以定义为您为角色设计的任何情绪模式。

SGX 目前有三种自动模式，还有更多模式即将推出。

积极：在声音中检测到快乐或积极的情绪。
消极：在声音中检测到消极或不愉快的情绪。这包括从悲伤到愤怒的各种情绪。
用力：在声音中检测到咕哝声或用力声。这种情况可能发生在配音演员描绘体力劳动或身体撞击的活动时，通常包括收紧声带发出喉音。

自动模式可以映射到角色的情绪模式，如下图所示。该映射可以随时更改。

用户可以自行决定激活哪些自动模式。如果自动模式未激活，则不会触发情绪模式的改变。

情绪修改器

情绪修改器是一种数值参数，可用于调整表演的特定维度，如动作幅度、速度和频率。与情绪模式一样，这些值可以应用于批量events、单个 event 或 event 的任何子区间。

情绪修改器的作用是“调整”，以纠正自动输出中出现的任何问题。除非有问题需要纠正，否则通常不需要使用它们。

下表列出了情绪修改器的概述，下面将更详细地讨论每个修改器。

修改器	描述	最小值	默认值（正常）	最大值
语音幅值	应用于所有语音动作幅度的比例因子	0.0（无动作）	1.0	2.0
语速	应用于所有语音动作速度的比例因子	0.0（无动作）	1.0	2.0
高发音力度	提升发音力度	0.0（正常）	0.0	1.0
下颚极限	下颚张开程度的上限	0.0（下颚始终闭合）	1.0	1.0（不受限制）
非嘴部幅值	应用于所有非嘴部动作幅度的比例因子	0.0（无动作）	1.0	2.0
非嘴部速度	应用于所有非嘴部动作速度的比例因子	0.0（无动作）	1.0	2.0
眨眼频率	应用于眨眼频率的比例因子	0.0（不眨眼）	1.0	2.0
眼球微动频率	应用于眼球微小运动频率的比例因子	0.0（眼球不运动）	1.0	2.0

语音幅值

语音幅值修改器会影响所有语音动作的幅度。它就像一个嘴型同步的音量旋钮。一般情况下，SGX 会尝试将肌肉运动的幅度与音频中语音的强度逐个音节地进行匹配。但是，如果动画动作不够有力（或需要某种特定风格），可以使用语音幅值修改器来放大语音；反之，如果给定音频的动作显得过于夸张，则可以使用此修改器来降低语音。

语音幅值设置为 0，将关闭嘴型同步。

请注意，增加语音幅值并不总会导致动作幅度成比例增加。语音的动作受复杂的肌肉动态模型控制（请参阅 Speech Graphics 技术），该模型要求每个动作都必须根据模型对速度和加速度的限制达到物理上的自然。这意味着，如果放大目标幅度，肌肉可能没有足够的时间达到所需的位移程度，因为它还要试图在时间轴上完成其他事情。绕过这一限制的方法之一是同时提高语速或高发音力度。

以下是将语音幅值设置为三个不同值的示例：

1.0（默认值）
0.3（=30% 幅度）
2.0（=200% 幅度）

语速

肌肉的速度由肌肉动态模型控制。在极少数情况下，您可能想让肌肉运动得更快，也许是为了突出快速说话的角色（但请注意，系统会检测快速语音，因此动作应与检测到的语速相称）。语速修改器是语音动作基本速度的全局乘数。

以下是将语速设置为三个不同值的示例：

1.0（默认值）
0.3（=30% 幅度）
2.0（=200% 幅度）

高发音力度

高发音力度是指说话者为了使语音非常清晰，而投入额外的能量使发音器官运动得更快、幅度更大的现象。当动画与音频中听到的高发音力度未正确匹配时，可以使用高发音力度修改器进行纠正调整。尤其是在语速非常快但仍然清晰的语音中，说话者需要在较短的时间内额外用力来达到发音目标，而不是让辅音和元音含糊不清。一般来说，应尽量少用高发音力度；微小的调整就能起到很大的作用。过多的高发音力度会导致动画抖动。

大多数修改器的默认值为 1.0，修改范围为 [0.0, 2.0]。但高发音力度的默认设置为 0.0，修改范围为 [0.0, 1.0]。

以下是将高发音力度设置为四个不同值的示例：

0.0（默认值）
0.2
0.5
1.0

下颚极限

下颚极限修改器用于限制允许的下颚张开程度。例如，这可以用来保持牙齿紧咬。该值越小，允许下颚张开的程度就越小。该值为 1.0 时表示没有限制，0.0 时下颚将保持完全闭合。下颚极限旨在阻碍语音动作，因此在将其应用于正常语音时请考虑这一点。

以下是将下颚极限设置为三个不同值的示例：

1.0（默认值）
0.7
0.1

非嘴部幅值

非嘴部幅值修改器会影响所有非嘴部动作的幅度。它是语音幅值的补充，后者仅影响语音肌肉。一般情况下，SGX 会将非嘴部表情的幅度与音频中语音的强度逐个短语地进行匹配。但是，如果动画动作不够有力，可以使用非嘴部幅值修改器来放大语音；反之，如果给定音频的动作显得过于夸张，则可以减小此修改器来降低非嘴部动作。

非嘴部幅值设置为 0，将关闭非嘴部动画。

我们建议同步修改非嘴部幅值和语音幅值。在下面的示例中，这两个修改器都设置为以下值：

1.0（默认值）
0.3
2.0

非嘴部速度

非嘴部速度是影响非嘴部肌肉运动基本速度的全局修改器。它类似于语速修改器，但后者仅作用于语音肌肉。

一般来说，肌肉的速度由肌肉动态模型控制。在极少数情况下，您可能希望让肌肉运动得更快，例如自动动画中没有捕捉到的特别尖锐的反应。这个修改器就可以实现这一目的。

眨眼频率

SGX 会使用人类眨眼模式模型自动生成眨眼。任何时候眨眼的概率都取决于音频属性和脸部的其他活动。不过，您可以使用眨眼频率修改器更改眨眼的基本频率。如果您希望角色的眨眼频率较低，请将该值设置为 1.0 以下；如果您希望角色的眨眼频率较高，请将该值设置为 1.0 以上。

眨眼频率设置为 0，将关闭眨眼。

眼球微动频率

SGX 中的眼球微小运动是指模拟对话者两只眼睛之间的眼神的小幅水平位移（快速眼球运动）。这种行为有助于提高角色动画的逼真度。

就像眨眼一样，SGX 会使用人类眼球运动模式模型自动生成眼球微小运动。任何时候眼球微小运动的概率都取决于音频属性和脸部的其他活动。不过，您可以使用眼球微动频率修改器更改眼球微动的基本频率。例如，如果您感觉角色的眼球微动过于频繁，请将该值设置为 1.0 以下。如果您感觉角色的凝视过于稳定，请将该值设置为 1.0 以上。

眼球微动频率设置为 0，将关闭眼球微小运动。