在生产的宇宙中,Evals已成为一种标准实践:它们允许您在目标任务上测试AI模型的确切能力。但是在市场营销领域,这种逻辑仍然很边缘。但是,在高速生成,修改,测试和广播的资产(文本,视觉,视频,提示)的时代,营销人员需要客观的基准。 Evals代表了一种可靠的方法,可以衡量营销制作的质量,影响或一致性 – beyond simple a后验表现。
在营销环境中的评估是什么?
评估是一个标准化的测试对象,以衡量其满足特定目标的能力。应用于营销,这相当于一个简单的问题: 这资产好吗?
但是“良好”不再由孤立的CTR得分来定义,而是由一系列可分析的上游标准来定义:
-
- 消息清晰
- 与品牌音调一致
- 与目标受众的相关性
- 独创性或差异化感知
- 情绪或说服力
这些维度以前留给了团队的主观性,如今可以由模型本身部分地对待,只要它们为他们提供精心设计的Evals。
“这些模型足够聪明,可以学习他们所教的一切,但仍然有必要为他们提供正确的基准测试。”
– 凯文·威尔(Kevin Weil),CPO,Openai
将三种类型的Evals整合到本地营销过程中
1。 语气(语气一致性)
允许您测试内容是否尊重品牌语法。
提示:“您是品牌经理专家。根据以下价值和音调评估本文:(品牌简介)。给出10的注释并解释原因。”
2。 评估意图(说服 /清晰度测试)
衡量对信息及其采取行动的能力的直接理解。
提示:“您是该报价目标的B2B潜在客户。您了解该公司提供的内容吗?您感到相信吗?您觉得情感是什么?”
3。 评估比较(A/B/C测试辅助)
该模型没有启动长期昂贵的广告测试,而是在特定标准上比较了同一消息的几种变体。
提示:“比较CMO目标的LinkedIn消息的这3个版本。根据其清晰度,独创性和情感影响对其进行分类。为每个分类辩护。”
为什么这些简化改变情况
迭代速度
而不是等待和等待结果,我们可以 过滤,分类和改进 数十个上游变体。
定性标准化
EVALS允许制定定性标准 稳定和分享,避免在编辑委员会中进行反复的主观辩论。
进行微调的结构化反馈
写得很好的Evals是精炼品牌特定AI模型(微调)的基础,该模型可以保证资产的持续改进。
构思阶段的加速
通过Evals启用良好的模型可以回报提供有关创意,有针对性和一致性改进的建议。
极限和良好实践
- 评估营销 不替换真实的测试,他在准备阶段完成了它。
- 他一定是 上下文化 :对于CFO来说,对学生的好消息不一定是这样。
- 有必要避免及时波动(“好吗?”),以精确,可计算和可解释的标准。
走向“以评估驱动”的营销
就像UX中的用户测试或增长中的A/B测试一样,营销Evals将成为一个 完整的学科。它们不仅允许成为现有资产的基准测试器,还可以导致AI模型了解品牌的特定要求。
由于生成代理将在各个级别的营销生产中集成,因此 知道如何撰写Evals将成为中心能力在品牌,语义分析和及时工程的十字路口。