The Quiet Coexistence: 为什么下一代人机交互是「安静」的

一个不太舒服的事实

我们正处于 AI 交互的「拟物化阶段」。

就像 iPhone 刚出来时，app 的设计长得像黄色便签本和木头书架，因为人们需要一个 familiar anchor 来理解新事物。今天的 chatbot 也是一样的：我们把一个能力爆炸的技术，塞进了一个 1990 年代的文本框里。

打开 ChatGPT，打开 Gemini，打开任何一个 AI 产品，"How can I help you?" 对话框在等你。

但如果你认真想想：你真的需要「聊天」吗？还是你只是需要「在对的时间，得到对的信息」？

这个区别看起来微妙，但它指向的是两种完全不同的未来。

旧范式为什么失效了

过去两年，大量创业公司试图用 "conversational interface" 改造各种行业。电商领域尤其热闹，AI 购物助手、对话式推荐、agent workflow 驱动的用户旅程设计。

我身边至少有两个团队做类似的东西，都没跑出来。融资更大的项目也没证明模式成立。原因很简单：

体验创新不等于业务创新。 用户不会因为能聊天就更愿意买东西。如果底层 retrieval 和 ranking 没有本质提升，再花哨的对话界面也只是 nice to have。

更致命的是，大厂进场了。OpenAI 直接把 shopping 能力嵌入 Chat，Google 天然拥有更强的 shopping 数据。你做一个 chat-based shopping experience，然后呢？How do you compete with Google on search?

所以 conversational interface 不是目的地。它只是一个 transitional crutch，过渡阶段的拐杖。

人机共存态：不是替代，是「外挂」

如果 chatbot 不是终局，那什么是？

我的判断是：人机共存态。

这个词听起来有点学术，但实际意思很直白，AI 不应该试图取代人，而应该成为人的「外挂」。人负责做人擅长的事：建立信任、表达情绪价值、进行社交判断。AI 负责做 AI 擅长的事：快速理解、检索、召回、提示。

想象一个具体的场景。你是一个销售，顾客走进来说：「这个款我上次看到模特穿过，你帮我找一下。」

传统流程：你去后台查电脑，等搜索结果，再回来回复客户。

有 AI 的流程：你继续跟顾客自然聊天。后台 agent 自动完成检索，理解语义，多步 search，function calling，结果即时呈现在你面前。对顾客来说，你看起来像一个「非常懂他、反应特别快」的销售。

没有人打开了一个 app。没有人说了一句 "Hey AI"。整个过程是 seamless 的、ambient 的、安静的。

这才是人机交互的 next form：你感受不到 AI 的存在，但你享受着它带来的能力。

其实这个模式在软件开发领域已经跑通了。像 OpenClaw、Claude Code 这类 coding agent，本质上就是一个 agent loop：你给它一个目标，它在后台自主规划、检索代码、执行修改、验证结果。更关键的是，它会持续积累你的个人 context，记住你的项目结构、偏好、历史决策，在你需要的时候 access essential information。你不需要反复解释背景，它已经懂了。这就是「外挂」在软件世界的样子：人负责判断和决策，agent 负责执行和记忆。

Sam Altman 有一个比喻说得很好：现在的设备体验像走在纽约时代广场，闪光灯、噪音、各种 notification 在争夺你的注意力。而未来的体验应该像坐在湖边的小木屋里，peaceful, calm, 你需要什么它就在那里。

语音已经 Good Enough

如果目标是 ambient interaction，那什么是最好的输入方式？

我的答案是：语音。而且它已经 good enough 了。

很多人还在等 full AR，等那个酷炫的、可以在空气中 drag and drop 的未来。但我觉得这个等待是错误的。语音作为交互入口，现在就能支撑大量商业场景：

自然。 人本来就是通过说话来表达模糊需求的。你不会打字说「我想找一条偏暗色系、适合晚宴但不要太正式的裙子」，但你会很自然地说出来。

低摩擦。 不需要打开特定 app，不需要手动输入，不需要掏出手机解锁。你在走路、聊天、接待客户的时候就能触发。

适合双手忙碌的场景。 仓储操作、工业生产线、后厨、销售现场，这些场景的共同点是：手在忙，但脑子需要信息。

相比之下，AR 图形交互在今天能带来的商业价值其实很有限。弹钢琴辅助？打高尔夫追踪球路？作为 demo 很酷，but who's paying for it on a daily basis?

我最近跟 Snapchat 做智能眼镜的人聊过。他们的 XR 眼镜比 Meta 眼镜还重，只有一小时电量，要卖 $2000。方向可能是对的，但 timing 不对，它 solves a problem that most people don't have yet.

短中期最现实的人机交互升级，不是 full AR，而是语音驱动的信息检索与辅助决策。

减法式硬件：做得少，反而做得对

这就引出了一个我最近很有感触的产品哲学：减法式硬件。

大多数硬件公司的思路是加法，更多传感器、更强 GPU、更高分辨率、更多功能。但在 AI-native 的时代，可能减法才是对的。

Even Realities 是我目前看到的最好的例子。

这是一家深圳公司做的智能眼镜。它的设计哲学可以用创始人 Will Wang 的一句话概括：

"很多人戴眼镜不只是为了时尚，而是因为我们需要。一天中可能只有 10% 到 20% 的时间需要智能功能，剩下的时间它就是一副普通眼镜。所以无论我们加什么功能，这个基础不能动。"

它做了什么？

没有摄像头。 所以它可以做到跟普通眼镜几乎一样轻（小于 40g），外观也几乎看不出区别。Will Wang 明确说过：过早地在眼镜上加摄像头，在政策和基础设施还没准备好之前，是 irresponsible 的。
没有扬声器。 用户更喜欢用独立的耳机。
没有彩色屏幕。 只有绿色单色 micro-LED 显示，但 good enough，因为你需要的只是文字信息 surface 在你眼前。
续航三天。 因为去掉了那些耗电大户。

它能做到什么？

当你平视前方时，什么也看不到，它就是一副眼镜。但当你微微抬头，HUD 激活，日程、消息、导航、实时翻译就在你的视野里。这不是 push notification 的逻辑，是 pull on demand，你去找信息，而不是信息来找你。

公司名字 "Even Realities" 本身就编码了这个哲学：

"我们试图找到物理现实和数字现实之间的平衡点，让两个现实变得 even。帮你把目光留在真实世界，同时还能接收数字信息。"

配套的还有一个智能指环 Even R1。单独看，一个健康追踪指环没什么新意。但配合眼镜，它变成了一个遥控器，手指捏合翻页、手势触发命令、演讲中隐蔽控制。指环比手腕设备精度更高、能识别的动作更多、更隐蔽、不依赖 screen。

90% 的 G2 用户选择了搭配指环购买。 这说明了什么？人们不需要更多 feature，他们需要的是一个完整的、frictionless 的交互闭环。

这让我想到一个更大的 insight：在 AI 能力足够强的今天，硬件的竞争力不在于加了什么，而在于减去了什么。

Google Glass 失败不是因为技术不够，而是因为它忽视了「首先它得是一副你想戴的眼镜」这个基本前提。Humane AI Pin 花了 $230M，做出了一个 $699 的设备，结果用户连定时器都设不稳定，它试图跳过太多步骤，直接替代手机，而不是 augment 生活。

Even Realities 的做法是反过来的：从时尚和舒适的约束倒推回技术，先确保你愿意戴，再谈智能功能。Fashion-first, technology-second. 这可能是 wearable computing 真正能落地的唯一路径。

Search 正在从软件世界溢出到现实世界

把上面这些观点串起来，会看到一条很清晰的趋势线：

Search 不再只是一个网页输入框。它正在变成一种跨软件和现实世界的信息获取能力。

在软件世界里，Search 在进化，从简单的 one-step RAG，到 Agentic Search。Agent 自己判断什么时候搜、搜什么、结果够不够、要不要换个 query 再搜一次。这不是 workflow-driven 的搜索，是 model-driven 的动态搜索过程。

但更有意思的是另一面：这种 search 能力正在延伸到物理世界。

当一个销售戴着轻量眼镜，通过语音跟 AI 系统交互，实时得到客户需要的商品信息，这就是 search 在现实世界中的 manifestation。当一个仓库工人通过眼镜看到下一步操作指引，这也是 search。当一个厨师语音问「这道菜的 SOP 是什么」然后信息出现在视野里，还是 search。

Ben Thompson 在 Stratechery 里提到，我们正在进入 LLM 的第三阶段，agentic 阶段。AI 不只是回答问题，而是持续地、自主地执行任务。如果把这个判断和硬件趋势放在一起看：

后台：Agentic Search 在多步检索、自动决策
载体：轻量眼镜 + 语音 + 指环作为信息 surface
场景：零售、仓储、生产、服务现场

软件世界的 autonomous search 和现实世界的 ambient interface 正在合流。这是一个还没有很多人在系统性地讲的方向，但我觉得下半年开始，随着越来越多眼镜产品出现，这个话题会迅速升温。

谁先落地？

最后一个 pragmatic 的问题：这些东西谁先落地？

我的判断是：企业场景远比消费者场景先跑通。

原因很直接：

任务明确。 仓库操作有 SOP，销售流程有标准，生产线有步骤。AI 不需要猜你想干什么。
ROI 容易计算。 一个销售因为 AI 辅助多成交了 10%，这个数字可以直接算出来。
对 hands-free 有真实需求。 不是 nice to have，是 must have。
企业比消费者更可能付费。 一个 $599 的眼镜，消费者会犹豫半天。企业采购？只要能 justify ROI，根本不是问题。

反过来看消费者市场，今天有多少人真的需要一副智能眼镜？导航？手机做得到。翻译？大多数人不是每天都需要。日程提醒？手表就够了。消费者场景的 killer use case 还没出现。

但企业场景不一样。当你的双手在忙、你的眼睛需要信息、你的嘴巴可以发出指令，这三个条件同时满足的时候，眼镜 + 语音 + AI 就是 the obvious solution。

Meta Ray-Ban 的 7M+ 销量证明了一件事：如果你不要求人们改变习惯，只是让他们现有的配件变聪明一点，人们是会买的。但要真正建立 PMF，企业场景是更快的路径。

写在最后

我们正在经历一个有趣的转折。

过去十年，科技行业的逻辑是「抢夺注意力」，越多 screen time 越好，越多 engagement 越好。但 AI-native 的时代，逻辑正在反转：最好的 AI 体验是你感觉不到 AI 的存在。 衡量标准不再是你花了多长时间跟它交互，而是它帮你省了多少时间。

有人把这叫 "Silence as luxury"，安静本身变成了一种奢侈品。Premium AI 是隐形的、安静的；广告驱动的 AI 才会 chatty 和 interruptive。

我觉得这个框架在人机交互上同样成立：

真正的下一代交互，不是更炫的 AR、更大的屏幕、更多的 notification。而是一副看不出智能的眼镜，一个不需要掏出来的手机，一个你说一句话就开始在后台 agentic search 的系统，和一个在你抬头的瞬间就把答案 surface 到你眼前的 display。

The best interface is the one you don't notice.

人机共存的未来，是安静的。