最近在研究Vibe Coding,也实际上手用AI去做了一些产品原型。
过程中一个很直接的体感是——你给模型的prompt质量,决定了它输出的上限。你描述需求越模糊,产出的东西越不可用;你的上下文给得越精准,它交付的结果越接近你脑子里想要的。但更有意思的是反过来的那个问题:模型的能力边界在哪里,取决于它被怎么训练的——喂了什么数据,用了什么方式强化推理,以及它的目标函数是如何被校准的。
在这个过程中逐渐产生了一个念头:训练一个大语言模型的流程,和一个人构建自己认知系统的过程,底层逻辑是相通的。
黄峥讲”本分”,讲的是只需要做对关键的几件事。而难倒大多数人的恰恰是——没有判断最关键的事的能力,或者有这个认知却没有资源和精力去做,亦或者没有耐心去等待,留在牌桌上。
模型也是如此。不是因为人像机器,而是因为两者面对的核心问题是相同的——如何从海量信息中提取有效的模式,如何建立可靠的推理能力,如何校准自己不跑偏,以及最终,如何在一个具体的场景里产出别人愿意买单的东西。
归根到底是四个阶段:数据摄入,推理训练,反馈校准,价值交付。
在AI的世界里,Pre-training是一切的起点。模型在这个阶段被喂入海量数据,从中学习语言的模式、世界的常识、逻辑的结构。
早期人们以为数据越多越好。后来发现不是这样的。Meta的Llama、微软的Phi这些体量不大的模型证明了一件事——精心策划的高质量数据,可以击败体量大十倍的模型。
Garbage in, garbage out。这大概是AI领域最朴素也最痛的教训。
映射到人的认知系统上,道理一模一样。大多数人的问题不是学得不够多,而是摄入了太多噪声。刷推特的Timeline很容易让你觉得自己在学习,但大部分时间你消费的是情绪,不是信息。一条有alpha的深度分析,和一百条FOMO的喊单,对你认知模型的训练效果是天壤之别。
在业务中这个逻辑也成立。当你在Telegram或者Line上做广告投放拉新的时候,表面上DAU在涨,数据很漂亮。但如果拉来的全是刷分用户和羊毛党,这些低质量数据不仅不能让你的判断变强,反而会制造虚假繁荣。你以为增长在发生,实际上真正能贡献现金流的大户一个都没来。
在用户增长中,容易被误解的本分是用户的数量,但真正的本分是用户的质量。训练数据也是如此。
因此需要建立一套”信息饮食”制度——像策划训练数据集一样策划自己的信息输入。一手的白皮书和原始数据是最高优先级,其次是行业里真正在做事的人写的复盘,再次是新闻摘要,最后才是社交媒体的碎片。每周设定明确的学习主题,而不是随机浏览。定期取关低质量信息源,增加高信号的输入渠道。
现代AI还有一个重要的趋势是多模态——GPT-4V、Gemini不只处理文本,还理解图像、音频、视频。多模态能力让模型认知世界的维度更丰富。
对人来说,这意味着不要只通过单一渠道获取信息。阅读是一种模态,和不同背景的人面对面交流是另一种模态,亲身参与一个项目的从零到一是第三种。每种模态提供的知识维度不同,它们之间的交叉才能构成立体的认知。正如冲浪,你可以看一百个教学视频,但站上浪板那一刻你才真正理解什么叫”等待时机”——这种embodied knowledge,是文字给不了你的。
此外,AI系统越来越依赖外部记忆模块来积累知识,而不是把所有东西都压进模型参数里。这就是RAG(检索增强生成)的思路——模型不需要记住一切,但需要在需要的时候快速检索并建立关联。
Tiago Forte把这个思路叫做”第二大脑”。他提出的CODE流程——捕获、组织、提炼、表达——本质上就是一套个人版的RAG系统。用Obsidian或者Notion搭建知识库,不只是记笔记,而是建立知识之间的链接。当你把一篇关于AMM机制的笔记和一篇关于预测市场定价模型的笔记关联起来时,你会发现它们底层的流动性逻辑是相通的。
一个好的知识管理系统不是让你记住更多,而是让你检索更快、关联更强。
如果说数据摄入决定了你知道什么,那么推理能力决定了你能用这些知识做什么。
OpenAI的o1和o3模型有一个核心机制叫Chain-of-Thought——思维链。它不是直接输出答案,而是强制模型先展示完整的推理步骤。研究发现,当模型被要求”说出自己的思考过程”时,它在复杂任务上的表现会大幅提升。
这个发现的启示很直接。
大多数人面对复杂决策时,习惯凭直觉跳到结论。直觉有时候很准,但更多时候它只是过去经验的简单复读,而不是基于当前信息的严谨推理。训练自己的思维链,就是强迫自己把推理过程写下来——考虑了哪些因素、权衡了什么、为什么选了这个方向、忽略了什么。事后对照实际结果复盘。长期积累下来,你会看到自己推理系统中反复出现的盲区。
费曼说过,如果你不能把一个概念用最朴素的语言解释清楚,说明你自己还没真正理解。公开写作是费曼学习法的放大版——每一篇文章都是对自己认知完整性的一次压力测试。写不下去的地方,就是推理链条断裂的地方。
但推理引擎要运转,有一个前提条件:连续的、不被打断的计算资源。
对模型来说这是GPU时间,对人来说这是Deep Work的时间。Cal Newport讲得很清楚——专注力是一种可以训练的能力,而现代生活中的一切都在系统性地削弱它。碎片化的计算等于碎片化的思考。你的推理引擎的上限,取决于你能维持多长时间的不间断深度思考。
Anders Ericsson的刻意练习理论也指向同一个方向:普通练习是在舒适区内重复已经会的东西,刻意练习是有明确目标、有即时反馈、持续在能力边界上挑战。每天刷推特看研报,如果没有明确的学习目标,这是普通练习。拿出一个你不懂的技术文档从第一性原理开始拆解,直到你能向别人解释清楚——这才是刻意练习。
在跑步中,容易被误解的本分是跑得快,但真正的本分是坚持跑。推理能力也是如此,不在于偶尔的灵光一闪,而在于日复一日的深度思考训练。
查理·芒格有一个”多元思维模型”的概念——用来自不同学科的思维框架解决同一个问题。经济学的供需模型、心理学的激励理论、生物学的进化论…每一个都是推理引擎上的一个插件。芒格说手里只有锤子的人看什么都像钉子,多元思维模型就是让你拥有一整个工具箱。
在实际业务中这种跨领域迁移极其有用。传统消费品的渠道分销逻辑,可以帮你理解交易所上币和流动性分发的机制。广告投放中的LTV/CAC模型,直接迁移到空投策略设计里,可以帮你判断一个活动到底是在获取真实用户还是在烧钱买数据。
你在一个看似无关的领域学到的推理框架,往往会在另一个领域成为最锋利的武器。
模型有了通用能力之后,需要Fine-tuning让它在特定领域变得专业,然后通过RLHF——用人类反馈来校准输出方向。
没有微调的模型是万金油,什么都能聊两句但什么都不精。没有RLHF的模型可能一直在产出看似合理但偏离目标的内容,而且它自己不知道。
映射到人身上,最有竞争力的往往是”跨领域微调”的结果——在多个领域有基础认知,然后在交叉地带深入,形成独特的能力组合。纯粹的通才缺乏深度,纯粹的专才缺乏视野,而在交叉点上有深度的人拥有难以复制的组合优势。
但比微调更关键的是反馈回路。
很多人以为自己在进步,实际上只是在重复旧有的模式。他们缺少的不是能力,而是一个有效的反馈系统。导师和教练是你的”人类标注员”,提供高质量的方向性反馈。写作和公开表达是你的”输出采样”,市场和读者会立刻告诉你这次输出的质量如何。复盘机制是你的”奖励模型”,帮你评估哪些决策有效、哪些没有、原因是什么。
没有反馈回路的成长是盲目的。正如在社群运营中,用户是最重要的,因为他们不仅是参与者,更是你的反馈来源。反馈渠道是否通畅、情绪如何管理、核心诉求是否被听到——这些决定了你的系统是在进化还是在空转。
然后是最关键的问题:对齐。
AI安全领域的核心议题是Alignment——确保模型的行为符合人类的价值观和意图。对人而言这个问题同样尖锐:你的目标函数到底是什么?
很多人在优化错误的目标。追求虚荣指标——粉丝数、title层级、参会频次——而非真实价值。这就是Reward Hacking,模型找到了最大化奖励分数的捷径,但并没有真正完成任务。刷课程数量而不做深入实践、频繁切换赛道而不在一个领域积累壁垒、追逐每一个热点而不沉下来做一件难而正确的事…这些都是人类版的Reward Hacking。
解决方案是为自己建立一套底层原则——一组不可违背的决策基准线。不需要每个决策都从零推演,但需要一套稳定的框架来避免被短期激励带偏。定期做”目标审计”:你当前的行为模式,是否与你真正想要的长期方向一致?
一个再强的基础模型,如果不能落地到具体的应用场景,就只是一个昂贵的实验。
ChatGPT的成功不只是GPT-4的强大,更是找到了正确的产品形态——一个所有人都能用的对话界面。很多同期的开源模型在benchmark上并不逊色,但因为缺乏好的产品包装而默默无闻。
对人也一样。知识和能力如果不能在某个具体场景中产出可被验证的价值,就无法形成市场认可。正如职业成长的本分不是打怪升级式的晋升,而是找准时机去一个最有潜力的位置。财富的积累不是线性的,能力的变现也是——它需要一个具体的”部署场景”来触发。
在这个阶段还有一个被低估的能力:向自己提出更好的问题。同一个模型,不同的prompt产出天差地别的结果。大多数人的困境不是找不到答案,而是问错了问题。重新定义问题本身,往往就是解决方案的一半。
最后也是最重要的——构建你的自我改进飞轮。
AI领域目前最前沿的方向之一是递归自我改进,模型优化自己的训练流程,形成正向循环。Google DeepMind的AlphaEvolve已经能加速自身核心模型的训练,Sakana AI的Darwin Gödel Machine在探索让AI自主改写自己的代码。MIT Technology Review说这可能是当今AI领域最重要的趋势。
对人来说,真正的高手不只是在某个技能上持续精进,而是在不断优化”学习如何学习”的能力本身。当你的学习效率持续提升时,你就拥有了一个加速的飞轮。
每周回顾输出质量和推理过程,每月审视信息源和思维框架是否需要更新,每年像模型换代一样重新评估自己的核心定位。
现在逐渐明白,这篇文章想说的不是”人应该变得像机器”。
而是AI训练方法论中蕴含的这套逻辑——关于数据质量、推理显性化、反馈校准、目标对齐——其实一直存在于人类自我提升的实践中。只是我们从未用这么结构化的方式来审视自己的成长系统。
未来最强大的不是某一个固定的模型,而是那些能够不断自我迭代的系统。人也是如此,真正的竞争力不在于你此刻有多强,而在于你的学习和迭代速度有多快。
正如冲浪,一个下午可能也就抓到两次浪。但冲浪的本分不是站起来,而是划水等待和抓住浪。
留在牌桌上,持续迭代。