The Quiet Coexistence: 为什么下一代人机交互是「安静」的
一个不太舒服的事实
我们正处于 AI 交互的「拟物化阶段」。
就像 iPhone 刚出来时,app 的设计长得像黄色便签本和木头书架,因为人们需要一个 familiar anchor 来理解新事物。今天的 chatbot 也是一样的:我们把一个能力爆炸的技术,塞进了一个 1990 年代的文本框里。
打开 ChatGPT,打开 Gemini,打开任何一个 AI 产品,"How can I help you?" 对话框在等你。
但如果你认真想想:你真的需要「聊天」吗?还是你只是需要「在对的时间,得到对的信息」?
这个区别看起来微妙,但它指向的是两种完全不同的未来。
旧范式为什么失效了
过去两年,大量创业公司试图用 "conversational interface" 改造各种行业。电商领域尤其热闹,AI 购物助手、对话式推荐、agent workflow 驱动的用户旅程设计。
我身边至少有两个团队做类似的东西,都没跑出来。融资更大的项目也没证明模式成立。原因很简单:
体验创新不等于业务创新。 用户不会因为能聊天就更愿意买东西。如果底层 retrieval 和 ranking 没有本质提升,再花哨的对话界面也只是 nice to have。
更致命的是,大厂进场了。OpenAI 直接把 shopping 能力嵌入 Chat,Google 天然拥有更强的 shopping 数据。你做一个 chat-based shopping experience,然后呢?How do you compete with Google on search?
所以 conversational interface 不是目的地。它只是一个 transitional crutch,过渡阶段的拐杖。
人机共存态:不是替代,是「外挂」
如果 chatbot 不是终局,那什么是?
我的判断是:人机共存态。
这个词听起来有点学术,但实际意思很直白,AI 不应该试图取代人,而应该成为人的「外挂」。人负责做人擅长的事:建立信任、表达情绪价值、进行社交判断。AI 负责做 AI 擅长的事:快速理解、检索、召回、提示。
想象一个具体的场景。你是一个销售,顾客走进来说:「这个款我上次看到模特穿过,你帮我找一下。」
传统流程:你去后台查电脑,等搜索结果,再回来回复客户。
有 AI 的流程:你继续跟顾客自然聊天。后台 agent 自动完成检索,理解语义,多步 search,function calling,结果即时呈现在你面前。对顾客来说,你看起来像一个「非常懂他、反应特别快」的销售。
没有人打开了一个 app。没有人说了一句 "Hey AI"。整个过程是 seamless 的、ambient 的、安静的。
这才是人机交互的 next form:你感受不到 AI 的存在,但你享受着它带来的能力。
其实这个模式在软件开发领域已经跑通了。像 OpenClaw、Claude Code 这类 coding agent,本质上就是一个 agent loop:你给它一个目标,它在后台自主规划、检索代码、执行修改、验证结果。更关键的是,它会持续积累你的个人 context,记住你的项目结构、偏好、历史决策,在你需要的时候 access essential information。你不需要反复解释背景,它已经懂了。这就是「外挂」在软件世界的样子:人负责判断和决策,agent 负责执行和记忆。
Sam Altman 有一个比喻说得很好:现在的设备体验像走在纽约时代广场,闪光灯、噪音、各种 notification 在争夺你的注意力。而未来的体验应该像坐在湖边的小木屋里,peaceful, calm, 你需要什么它就在那里。
语音已经 Good Enough
如果目标是 ambient interaction,那什么是最好的输入方式?
我的答案是:语音。而且它已经 good enough 了。
很多人还在等 full AR,等那个酷炫的、可以在空气中 drag and drop 的未来。但我觉得这个等待是错误的。语音作为交互入口,现在就能支撑大量商业场景:
自然。 人本来就是通过说话来表达模糊需求的。你不会打字说「我想找一条偏暗色系、适合晚宴但不要太正式的裙子」,但你会很自然地说出来。
低摩擦。 不需要打开特定 app,不需要手动输入,不需要掏出手机解锁。你在走路、聊天、接待客户的时候就能触发。
适合双手忙碌的场景。 仓储操作、工业生产线、后厨、销售现场,这些场景的共同点是:手在忙,但脑子需要信息。
相比之下,AR 图形交互在今天能带来的商业价值其实很有限。弹钢琴辅助?打高尔夫追踪球路?作为 demo 很酷,but who's paying for it on a daily basis?
我最近跟 Snapchat 做智能眼镜的人聊过。他们的 XR 眼镜比 Meta 眼镜还重,只有一小时电量,要卖 $2000。方向可能是对的,但 timing 不对,它 solves a problem that most people don't have yet.
短中期最现实的人机交互升级,不是 full AR,而是语音驱动的信息检索与辅助决策。
减法式硬件:做得少,反而做得对
这就引出了一个我最近很有感触的产品哲学:减法式硬件。
大多数硬件公司的思路是加法,更多传感器、更强 GPU、更高分辨率、更多功能。但在 AI-native 的时代,可能减法才是对的。
Even Realities 是我目前看到的最好的例子。
这是一家深圳公司做的智能眼镜。它的设计哲学可以用创始人 Will Wang 的一句话概括:
"很多人戴眼镜不只是为了时尚,而是因为我们需要。一天中可能只有 10% 到 20% 的时间需要智能功能,剩下的时间它就是一副普通眼镜。所以无论我们加什么功能,这个基础不能动。"
它做了什么?
- 没有摄像头。 所以它可以做到跟普通眼镜几乎一样轻(小于 40g),外观也几乎看不出区别。Will Wang 明确说过:过早地在眼镜上加摄像头,在政策和基础设施还没准备好之前,是 irresponsible 的。
- 没有扬声器。 用户更喜欢用独立的耳机。
- 没有彩色屏幕。 只有绿色单色 micro-LED 显示,但 good enough,因为你需要的只是文字信息 surface 在你眼前。
- 续航三天。 因为去掉了那些耗电大户。
它能做到什么?
当你平视前方时,什么也看不到,它就是一副眼镜。但当你微微抬头,HUD 激活,日程、消息、导航、实时翻译就在你的视野里。这不是 push notification 的逻辑,是 pull on demand,你去找信息,而不是信息来找你。
公司名字 "Even Realities" 本身就编码了这个哲学:
"我们试图找到物理现实和数字现实之间的平衡点,让两个现实变得 even。帮你把目光留在真实世界,同时还能接收数字信息。"
配套的还有一个智能指环 Even R1。单独看,一个健康追踪指环没什么新意。但配合眼镜,它变成了一个遥控器,手指捏合翻页、手势触发命令、演讲中隐蔽控制。指环比手腕设备精度更高、能识别的动作更多、更隐蔽、不依赖 screen。
90% 的 G2 用户选择了搭配指环购买。 这说明了什么?人们不需要更多 feature,他们需要的是一个完整的、frictionless 的交互闭环。
这让我想到一个更大的 insight:在 AI 能力足够强的今天,硬件的竞争力不在于加了什么,而在于减去了什么。
Google Glass 失败不是因为技术不够,而是因为它忽视了「首先它得是一副你想戴的眼镜」这个基本前提。Humane AI Pin 花了 $230M,做出了一个 $699 的设备,结果用户连定时器都设不稳定,它试图跳过太多步骤,直接替代手机,而不是 augment 生活。
Even Realities 的做法是反过来的:从时尚和舒适的约束倒推回技术,先确保你愿意戴,再谈智能功能。Fashion-first, technology-second. 这可能是 wearable computing 真正能落地的唯一路径。
Search 正在从软件世界溢出到现实世界
把上面这些观点串起来,会看到一条很清晰的趋势线:
Search 不再只是一个网页输入框。它正在变成一种跨软件和现实世界的信息获取能力。
在软件世界里,Search 在进化,从简单的 one-step RAG,到 Agentic Search。Agent 自己判断什么时候搜、搜什么、结果够不够、要不要换个 query 再搜一次。这不是 workflow-driven 的搜索,是 model-driven 的动态搜索过程。
但更有意思的是另一面:这种 search 能力正在延伸到物理世界。
当一个销售戴着轻量眼镜,通过语音跟 AI 系统交互,实时得到客户需要的商品信息,这就是 search 在现实世界中的 manifestation。当一个仓库工人通过眼镜看到下一步操作指引,这也是 search。当一个厨师语音问「这道菜的 SOP 是什么」然后信息出现在视野里,还是 search。
Ben Thompson 在 Stratechery 里提到,我们正在进入 LLM 的第三阶段,agentic 阶段。AI 不只是回答问题,而是持续地、自主地执行任务。如果把这个判断和硬件趋势放在一起看:
- 后台:Agentic Search 在多步检索、自动决策
- 载体:轻量眼镜 + 语音 + 指环 作为信息 surface
- 场景:零售、仓储、生产、服务现场
软件世界的 autonomous search 和现实世界的 ambient interface 正在合流。这是一个还没有很多人在系统性地讲的方向,但我觉得下半年开始,随着越来越多眼镜产品出现,这个话题会迅速升温。
谁先落地?
最后一个 pragmatic 的问题:这些东西谁先落地?
我的判断是:企业场景远比消费者场景先跑通。
原因很直接:
- 任务明确。 仓库操作有 SOP,销售流程有标准,生产线有步骤。AI 不需要猜你想干什么。
- ROI 容易计算。 一个销售因为 AI 辅助多成交了 10%,这个数字可以直接算出来。
- 对 hands-free 有真实需求。 不是 nice to have,是 must have。
- 企业比消费者更可能付费。 一个 $599 的眼镜,消费者会犹豫半天。企业采购?只要能 justify ROI,根本不是问题。
反过来看消费者市场,今天有多少人真的需要一副智能眼镜?导航?手机做得到。翻译?大多数人不是每天都需要。日程提醒?手表就够了。消费者场景的 killer use case 还没出现。
但企业场景不一样。当你的双手在忙、你的眼睛需要信息、你的嘴巴可以发出指令,这三个条件同时满足的时候,眼镜 + 语音 + AI 就是 the obvious solution。
Meta Ray-Ban 的 7M+ 销量证明了一件事:如果你不要求人们改变习惯,只是让他们现有的配件变聪明一点,人们是会买的。但要真正建立 PMF,企业场景是更快的路径。
写在最后
我们正在经历一个有趣的转折。
过去十年,科技行业的逻辑是「抢夺注意力」,越多 screen time 越好,越多 engagement 越好。但 AI-native 的时代,逻辑正在反转:最好的 AI 体验是你感觉不到 AI 的存在。 衡量标准不再是你花了多长时间跟它交互,而是它帮你省了多少时间。
有人把这叫 "Silence as luxury",安静本身变成了一种奢侈品。Premium AI 是隐形的、安静的;广告驱动的 AI 才会 chatty 和 interruptive。
我觉得这个框架在人机交互上同样成立:
真正的下一代交互,不是更炫的 AR、更大的屏幕、更多的 notification。而是一副看不出智能的眼镜,一个不需要掏出来的手机,一个你说一句话就开始在后台 agentic search 的系统,和一个在你抬头的瞬间就把答案 surface 到你眼前的 display。
The best interface is the one you don't notice.
人机共存的未来,是安静的。