生成式AI驱动用户体验研究：以空中出租车为例的设计思维革新-编程实验室

1. 项目概述：当生成式AI遇见未来出行

空中出租车，这个听起来像是科幻电影里的概念，正以前所未有的速度向我们驶来。然而，任何一项颠覆性的技术，从实验室走向大众市场，都绕不开一个核心问题：用户会接受它吗？他们会觉得安全、舒适、好用吗？这正是用户体验研究的价值所在。但研究一个尚未大规模商用的“未来产品”，我们面临着一系列经典难题：没有实体产品可供测试，真实飞行测试成本高昂且风险巨大，目标用户群体模糊且难以触达。传统的用户研究方法，如焦点小组、问卷调查和实体原型测试，在这里似乎有些“巧妇难为无米之炊”。

正是在这个背景下，生成式人工智能，特别是以GPT-4为代表的大型语言模型和以Midjourney、Runway为代表的AI图像/视频生成器，为我们打开了一扇全新的大门。它们不再仅仅是内容创作的辅助工具，而是演变成了一个强大的“虚拟研究实验室”。这个实验室的核心能力在于，它能够基于有限的先验知识和设计框架，快速、低成本地构建出高度拟真的虚拟场景和虚拟用户，让我们在产品的“胚胎期”就能进行深入的、可迭代的用户体验探索。

我最近主导并深度参与了一个研究项目，核心就是探索这套方法论。我们以空中出租车为具体案例，将GPT-4与经典的设计思维流程深度融合，构建了一套从需求洞察到原型验证的自动化研究管线。简单来说，我们教会了AI如何扮演“设计师”和“用户”双重角色。通过精心设计的提示词，GPT-4能够模拟设计师的思维，产出用户痛点、需求定义、界面概念和故事板；同时，它也能模拟不同背景的虚拟用户，对这些设计概念给出初步的反馈。最终，我们不仅用虚拟用户进行了预测试，还用真实的用户对AI生成的设计方案进行了验证。结果令人振奋：AI生成的设计方案有效提升了用户对空中出租车的接受意愿，并且我们发现，不同教育背景和性别的用户对这项新技术的态度存在显著差异。这不仅仅是一次技术演示，更是一次研究范式的革新尝试。它证明了，在高风险、高不确定性的前沿领域，生成式AI可以成为一个强大的“探路者”和“加速器”，让用户体验研究跑在产品研发的前面。

2. 核心方法论：设计思维与生成式AI的融合框架

传统的设计思维是一个以人为中心的迭代式问题解决方法论，通常包含共情、定义、构思、原型和测试五个阶段。我们的创新之处在于，将GPT-4深度嵌入到前四个阶段中，使其成为每个阶段的“智能协作者”和“内容生成引擎”，从而构建一个高度自动化的虚拟研究流程。

2.1 设计思维阶段的GPT-4提示工程

要让AI理解并执行设计思维，关键在于将每个阶段抽象成AI能够理解和执行的具体任务，并通过结构化的提示词来引导。这本身就是一个需要精心设计的“元任务”。

2.1.1 共情阶段：从零到一的用户洞察模拟

在传统研究中，共情阶段需要大量的一对一访谈和实地观察，以理解用户的真实环境、行为和痛点。对于空中出租车这种尚无大规模用户基础的产品，我们转而利用GPT-4内化的海量人类知识和社会认知来模拟这一过程。

我们的“Prompt_Empathize”核心是赋予GPT-4一个明确的角色和场景。例如：“你是一位专业的用户体验研究员，正在研究未来城市空中出行服务。请基于你对城市通勤者、旅行者以及对新科技尝鲜者的普遍认知，模拟并列出潜在用户在使用传统地面交通（如打车、地铁）和未来空中出租车时，可能面临的三个最突出的痛点。请从心理感受（如焦虑、不确定性）、物理体验（如舒适度、便捷性）和认知负担（如学习成本）三个维度进行阐述。”

通过这样的提示，GPT-4能够生成诸如“对飞行安全的深度焦虑与不确定性”、“对高昂费用的担忧”、“对预订和搭乘流程的陌生感与困惑”、“对紧急情况下如何应对的未知恐惧”等非常具象的痛点。这些痛点虽然源于AI的推理，但其根源是对人类普遍心理和社会现象的建模，为后续的定义阶段提供了扎实的起点。

注意：AI生成的痛点是一个“最大公约数”式的集合，它可能缺乏特定文化或极端场景下的细微差异。因此，研究者必须将其视为“假设”而非“结论”，并在后续的真实用户测试中重点验证这些痛点。

2.1.2 定义与构思阶段：从问题到解决方案的AI推演

在定义阶段，我们将共情阶段输出的痛点转化为明确的设计挑战。提示词如：“基于上述痛点，请将‘为首次使用空中出租车的用户设计一个安全、安心且直观的搭乘体验’定义为核心设计挑战。并进一步拆解出三个关键的设计需求：1. 透明化的安全与状态告知；2. 极简化的预订与支付流程；3. 情景化的应急指引支持。”

进入构思阶段，GPT-4的创造力得以爆发。我们使用“Prompt_Ideate”引导其进行头脑风暴：“针对‘透明化的安全与状态告知’这一需求，请构思五种创新的交互设计方案，可以涉及手机应用、车载屏幕或外部环境交互。方案描述应包括交互形式、信息内容和预期用户价值。” GPT-4可能会提出“基于增强现实的飞行路径与安全边界可视化”、“实时三维模型展示飞机当前状态（如动力、平衡）”、“与地面交通融合的实时ETA动态地图”、“乘客间共享的舒缓情绪界面”等大胆而具体的想法。

2.1.3 原型阶段：从文本描述到可视化蓝图

这是将想法具象化的关键一步。我们利用GPT-4生成两种形式的原型：

文字原型：详细描述关键用户界面（UI）模块的功能、布局和交互逻辑。例如，生成一个包含“一键紧急连接客服”、“飞行全程生物传感器状态简图”、“目的地实景预览窗”等功能的座舱屏幕设计描述。
故事板：生成一个包含8-10个场景的序列化故事，描述用户从产生需求、预订、等待、登机、飞行到抵达的全流程交互与情感变化。例如：“场景1：用户在拥堵的市中心会议室，通过手机App查看空中出租车选项，对比时间和价格后露出惊喜表情。场景2：用户到达屋顶垂直起降场，通过App解锁舱门，舱内灯光柔和亮起，语音欢迎……”

这些详尽的文字描述，为下一步利用AI图像/视频生成器（如Midjourney, Runway）创建视觉素材提供了精确的“脚本”。例如，将故事板的场景描述输入Midjourney，即可生成对应的静态画面；将UI描述输入，则可生成高保真的界面概念图。

2.2 虚拟实验场景的构建：从文本到多模态体验

仅有文字和图片还不够，为了进行有效的用户测试，我们需要构建一个沉浸式的“虚拟体验”。这正是Midjourney和Runway等工具大显身手的地方。

2.2.1 静态场景与界面可视化

我们将GPT-4生成的故事板场景和UI描述，转化为给Midjourney的提示词。这里有一个关键技巧：需要添加风格化指令以确保视觉一致性。例如，对于空中出租车内饰的生成，提示词可能是：“Ultra-realistic photo, interior of a futuristic air taxi cabin, minimalist design, soft ambient lighting, large transparent window showing city skyline, a digital display screen showing flight path and safety metrics, sleek seats with safety harnesses, cinematic lighting, 8K –ar 16:9”。通过批量生成，我们可以得到一套风格统一、细节丰富的场景图，它们共同构成了一个连贯的视觉故事。

2.2.2 动态体验模拟

对于关键的交互动画或飞行过程，我们使用Runway这类AI视频生成工具。例如，将“从空中出租车舱内视角，观看飞机平稳垂直起飞，穿越城市楼宇，最终降落在另一个屋顶平台”这样的描述输入Runway，它可以生成一段几秒钟的短视频。虽然当前AI生成视频在物理准确性和长时序一致性上仍有局限，但对于传达核心的体验感受和氛围已经足够。

最终，我们将这些生成的图片和视频片段，按照故事板的顺序整合成一个完整的“模拟飞行体验”视频或交互式PDF。这就是我们用于后续用户测试的核心材料——一个完全由生成式AI创造的、关于未来产品的“预告片”。

3. 用户测试设计与实证分析

有了虚拟体验材料，下一步就是验证其效果。我们设计了两个层面的测试：一是用真实的用户来评估AI生成的设计方案本身；二是探索用AI模拟的虚拟用户，其反馈能否逼近真实用户的反应。

3.1 真实用户测试：评估设计有效性

我们招募了72名背景各异的真实参与者，让他们观看上述“模拟飞行体验”材料，并在观看前后分别填写问卷。问卷核心测量两个变量：1) 对乘坐空中出租车的态度/意愿（采用李克特5点量表，从“非常不愿意”到“非常愿意”）；2) 对本次模拟体验的满意度。

3.1.1 核心发现：态度转变与群体差异

配对样本T检验的结果显示，参与者在观看AI生成的体验后，对乘坐空中出租车的意愿有统计学上的显著提升（p = 0.001）。这意味着，一个设计良好的、由AI构建的虚拟体验，确实能够缓解人们对未知技术的恐惧，提升接受度。这为在产品开发早期利用低成本原型进行市场教育和信心建立提供了实证支持。

更深入的数据分析揭示了有趣的群体差异：

教育水平的影响：不同教育水平的参与者在意愿提升程度上存在显著差异（p = 0.008）。事后分析发现，低学历群体的意愿提升幅度最大，而高学历群体（如硕士、博士）的变化则不明显。一种可能的解释是，高学历群体可能对新技术有更复杂的认知框架和更高的初始期待，简单的视觉化演示不足以显著改变其固有态度；而低学历群体可能更依赖于直观、感性的体验来形成判断。这对市场推广的启示是：早期面向大众的传播，应侧重于情感化和体验化的内容。
性别的影响：在满意度维度上，性别差异显著。女性参与者对模拟体验的整体满意度显著低于男性。这与许多关于交通技术接受度的研究结论一致，女性通常对安全、隐私和细节体验更为敏感。这强烈提示，在产品设计中，必须格外关注女性用户的安全感知、环境控制感和沟通的清晰度。

实操心得：在设计问卷时，除了核心的态度量表，一定要收集详细的人口统计学信息（年龄、性别、教育、职业、兴趣等）。这些信息不仅是样本描述，更是进行细分群体分析、发现差异化洞察的钥匙。我们的研究正是因为做了这些交叉分析，才发现了教育水平和性别这两个关键影响因素。

3.1.2 满意度的影响因素分析

我们对满意度进行了更细致的剖析。独立样本T检验显示，在年龄分组（18-40岁 vs 40岁以上）和就业状态分组（在职 vs 失业）上，满意度并无显著差异。这意味着，我们AI生成的设计方案在满足不同年龄和就业状态的用户基本体验期望上，表现是相对均衡的。

然而，结合性别差异的发现，我们可以得出一个初步的设计原则：对于空中出租车这类新兴服务，普适性的体验设计是基础，但针对特定群体（如女性用户）的精细化、安全感导向的设计，是提升整体满意度和市场渗透率的关键。例如，可以考虑增加女性专属的“安全护航”功能（如行程自动分享给紧急联系人、与客服的无声报警连接等），或是在内饰设计中更多采用令人感到平静、可控的色彩和材质。

3.2 虚拟用户模拟：探索LLM的预测能力

这是本项目最具前瞻性的探索：能否用GPT-4、Gemini等大语言模型，直接模拟一批虚拟用户，来预测真实用户的反馈？我们进行了一次“实验中的实验”。

3.2.1 模拟方法

我们为GPT-4和Gemini创建了72个虚拟用户档案，每个档案包含与真实参与者对应的年龄、国籍、性别、教育、职业、兴趣等个人信息。然后，我们将完全相同的问卷题目、选项以及之前生成的10个场景的关键图像（给GPT-4）或视频（给Gemini）提供给这两个模型，并提问：“如果你是档案中的‘参与者1’，你会如何回答这份问卷？” 从而收集了72套虚拟回答。

3.2.2 结果对比与启示

分析发现，无论是GPT-4还是Gemini模拟的虚拟用户群体，在观看体验后，其“乘坐意愿”的得分也出现了显著的统计学提升（GPT-4模拟组 p=0.001，Gemini模拟组 p<0.001）。这个趋势与真实用户测试的结果一致。这是一个非常重要的信号：LLM在群体层面的态度变化趋势上，展现出了与人类相似的“反应模式”。

然而，当我们逐题对比虚拟用户与真实用户的评分均值时，发现了差异。在12个问题中，GPT-4模拟的用户有8个问题的回答与真实用户存在显著差异，Gemini更是有10个问题存在差异。这说明，当前的大模型在模拟个体对具体、细微问题的判断时（例如“你对座椅舒适度的预期满意度是多少？”），其准确性尚不稳定。

3.2.3 虚拟用户模拟的价值与局限

这项探索的实践意义在于：

低成本趋势预测：在资源极度有限的项目初期，研究者可以利用LLM快速模拟成百上千种用户画像的反馈，虽然不能精确预测每道题的分数，但可能捕捉到“哪个设计方向更受某类人群欢迎”的整体趋势。这可以作为决定设计资源投向的快速参考。
问题发现与迭代：虚拟用户与真实用户反馈差异最大的那些问题，恰恰是需要研究者高度警惕和深入探究的地方。这些差异点可能指向了AI认知的盲区，或是设计中存在歧义、需要进一步澄清的部分。
安全与包容性测试：可以轻松模拟极端用户（如患有严重恐高症的用户、行动不便的老年用户）的潜在反应，提前发现设计中可能存在的排斥性或风险点，而无需在现实中寻找这些难以招募的参与者。

注意事项：绝不能将虚拟用户的反馈等同于真实用户研究。它目前更适合作为传统研究方法的“前置探索工具”或“辅助分析视角”。其可靠性高度依赖于提示词的质量、提供给模型的上下文信息以及模型本身的能力。GPT-4在本研究中的表现略优于Gemini，这也提示我们需要根据任务特性谨慎选择模型。

4. 工程实践：从提示词到可交付成果的完整链路

理论和方法论之后，让我们深入到实操层面，看看如何将这一套想法落地为一个可执行的研究项目。这套流程可以看作一个标准化的“生产线”。

4.1 第一阶段：定义研究目标与构建提示词库

一切始于清晰的目标。我们的目标是：“评估并优化潜在用户对空中出租车核心旅程的体验，并探索影响其接受度的关键因素。”

基于此，我们创建了一个结构化的提示词库，这是驱动整个AI工作流的核心资产。这个库按设计思维阶段组织：

共情提示词：专注于挖掘痛点。例如：“列出城市高端商务人士在时间紧迫的跨城会议途中，对交通服务的三大核心未满足需求，并分别阐述其背后的情感动机（如对掌控感的渴望、对疲惫的厌恶）。”
定义提示词：将痛点转化为机会点。例如：“将‘用户在飞行途中因无法感知外部环境而产生的不安感’定义为设计机会，并提出三个可衡量的设计目标（如：在起飞后30秒内，将用户的不安感自评分数降低20%）。"
构思提示词：激发解决方案。例如：“围绕‘提升飞行过程中的环境感知与趣味性’这一目标，构思三种基于舱内屏幕或个人设备的交互概念。描述其核心功能、用户操作流程以及所需的技术支持。”
原型提示词：生成具体产出物。这是最需要细化的一类。例如：
- UI模块描述：“生成一个空中出租车乘客端App的主页UI文字描述。要求包含：1) 实时地图与车辆位置；2) 一键呼叫按钮；3) 预估费用与时间；4) 安全认证状态显示；5) 个人行程历史入口。请描述每个元素的布局、大小和交互反馈。”
- 用户旅程故事板：“生成一个包含8个场景的故事板，描述一位首次使用的母亲带着孩子搭乘空中出租车去机场的全过程。每个场景需包括：场景编号、场景地点、人物动作、系统反馈、人物情绪状态。”

4.2 第二阶段：多轮迭代与内容生成

有了提示词库，工作就进入了循环迭代。我们通常进行2-3轮迭代：

初稿生成：使用基础提示词，让GPT-4产出第一版痛点列表、设计需求和原型描述。
批判性精炼：研究者以“挑剔的专家”身份介入，审查AI的产出。例如，发现AI生成的某个痛点过于泛泛（如“价格贵”），则通过追加提示词进行深化：“请从心理账户和感知价值的角度，进一步细化‘价格贵’这一痛点。用户是与哪种交通方式对比？他们愿意为哪些具体价值点（如时间节省、独享空间、景观体验）支付溢价？”
融合与整合：将精炼后的各阶段产出进行整合。例如，将共情阶段深化的痛点，重新输入到定义和构思阶段的提示词中，生成更具针对性的解决方案。

这个过程中，所有与GPT-4的对话、修改记录和不同版本的产出，都需要被系统地保存下来。这不仅是项目文档，更是未来优化提示词、复现或改进流程的宝贵资产。

4.3 第三阶段：多模态内容生产与合成

当文本原型和故事板确定后，便进入视觉化阶段。

图像生成：将故事板的每个场景描述和UI描述，转化为给Midjourney或Stable Diffusion的提示词。关键技巧是创建并维护一个“风格指南提示后缀”，例如“, photorealistic, clean futuristic design, soft lighting, cinematic, 8k –ar 16:9 –style raw”，附加在所有提示词后，以确保整体视觉风格的统一性。
视频生成：选取故事板中的关键动态场景（如起飞、穿越城市、降落），使用Runway或Pika Labs生成短视频片段。由于当前技术的限制，视频通常较短，更适合用于展示特定的瞬间体验而非完整叙事。
体验合成：使用视频编辑软件（如Premiere Pro、Final Cut）或交互式原型工具（如Figma、ProtoPie），将生成的图片、视频片段，连同UI界面图整合起来，加入必要的文字说明、过渡动画和简单的交互热点，制作成一份可供测试的“体验原型”。这份原型可能是一个视频文件，也可能是一个可点击的交互演示。

4.4 第四阶段：测试执行与数据分析

我们通过在线问卷平台（如Qualtrics, SurveyMonkey）发布测试。问卷嵌入之前制作好的体验原型（视频或交互链接），并设置逻辑：先测量基线态度，然后让参与者体验原型，最后再次测量态度并收集满意度及人口统计学信息。

数据分析采用标准的统计软件（如SPSS, R, Python的Pandas+SciPy）。核心步骤包括：

数据清洗：检查并处理无效答卷。
信效度检验：对量表进行信度分析（如Cronbach‘s Alpha）。
描述性统计：计算各项得分的均值、标准差。
推断性统计：
- 使用配对样本T检验比较体验前后态度得分的差异。
- 使用独立样本T检验或单因素方差分析，检验不同人口学分组（性别、年龄、教育等）在态度或满意度上是否存在显著差异。
- 结果可视化：使用柱状图、折线图清晰展示不同组别的得分对比，并用星号（*， **， ***）标注显著性水平。

5. 挑战、反思与未来展望

尽管本次实践取得了积极成果，但过程中遇到的挑战和暴露的局限性同样值得深思，它们指明了未来改进的方向。

5.1 当前方法的局限性

交互深度不足：目前的体验原型主要以“观看”为主，缺乏真实的物理交互和决策点。用户是被动接受信息，而非主动操作。这限制了我们对可用性、学习曲线等更深层次用户体验维度的评估。未来的原型需要向更高保真度、可交互的方向发展，例如结合VR技术创建可“操作”的虚拟座舱。
虚拟用户的“幻觉”与偏差：LLM模拟的用户反馈基于其训练数据中的模式，可能无法代表真实世界中某些小众或具有独特文化背景的群体。它可能放大社会主流观点，而边缘化少数派的声音。此外，LLM对情感细微差别和情境化矛盾心理的模拟仍不成熟。
技术工具的碎片化与成本：整个流程涉及多个AI工具（GPT-4, Midjourney, Runway），每个工具都需要单独学习、付费和管理。提示词工程本身也是一项专业技能。这为研究团队设置了不低的技术门槛和成本。
伦理与隐私考量：使用AI生成虚拟用户的形象和反馈，涉及肖像权、数据真实性等伦理问题。在研究报告中有必要明确声明哪些部分由AI生成，避免误导。同时，用于训练和引导AI的数据集本身也可能存在偏见，需要谨慎审视。

5.2 优化建议与扩展应用

构建领域特定的提示词框架：针对自动驾驶、智能家居、医疗机器人等不同领域，可以预先构建和优化一套专用的设计思维提示词库，包含该领域特有的术语、常见用户画像和典型场景，从而提升AI产出内容的相关性和专业性。
人机协同的混合研究模式：不应追求完全自动化，而应建立“AI广撒网，专家深聚焦”的模式。AI负责快速生成大量可能性和模拟海量用户初筛，人类研究员则负责对AI产出的关键洞察进行深度解读、对矛盾点进行实地验证，并最终做出设计决策。
向高保真与多模态交互演进：结合游戏引擎（如Unity, Unreal Engine）和VR设备，将AI生成的3D模型、场景和交互逻辑导入，构建沉浸式、可交互的虚拟体验环境。这能收集更丰富的用户行为数据（如注视点、操作路径）。
扩展应用场景：这套方法论不仅限于空中出租车。它非常适合任何高成本、高风险、高不确定性的领域前期探索。例如：
- 太空旅游体验设计：在实体飞船造出来之前，模拟失重环境下的用户界面和活动流程。
- 灾难救援机器人交互：在危险的真实环境测试前，模拟救援人员与机器人的协同作业界面。
- 新型外科手术设备培训：在动物实验或临床前，为医生提供虚拟的手术操作培训和体验反馈收集。

这次将生成式AI与设计思维结合用于空中出租车用户体验研究的实践，对我而言更像是一次“思想实验”的工程化实现。它最核心的价值不在于得出了某个具体的设计结论，而在于验证了一条路径的可行性：在实体产品远未成型时，我们可以利用AI快速构建一个关于未来的、可感知、可讨论、可测试的“共识原型”。这极大地压缩了从概念到验证的周期，降低了试错成本。它让用户体验研究从传统的“事后验证”更多地转向“事前预测”和“同步塑造”。当然，工具再强大，也无法替代研究者深刻的同理心、批判性思维和对人性的洞察。AI生成的是“模式”和“可能性”，而人类负责理解“意义”和做出“选择”。未来的用户体验研究者，或许需要兼具人类学家的敏锐和AI训练师的技艺，才能在这个人机协同的新时代，更好地驾驭技术，服务于人。