AI 为什么值得长期关注

如果说有什么行业值得长期关注，AI 大概率是绕不开的一个方向。自 2022 年 ChatGPT 发布以来，AI 很快从聊天、写文案、翻译，扩展到写代码、生成图片、制作视频等更复杂的任务。

更重要的是，AI 的发展可能还只是开始。无论是 Agent、自动驾驶、机器人，还是 AGI，现阶段都还远没有发展成熟。全球科技公司仍在持续投入大量资金建设数据中心、购买 GPU、训练模型。

对投资者来说，这既是机会，也意味着风险。当下 AI 行业技术迭代和竞争都非常激烈，今天领先的公司不一定是明天的赢家。在谈具体投资机会之前，有必要先把这个行业的底层逻辑弄清楚。

一、AI 的发展，经历了几个关键阶段

专家系统

人工智能早期最主流的一类方法叫专家系统。工程师把某个领域的经验写成规则，系统照章执行。比如早期的风控系统，会提前写好一套判断逻辑：如果账号登录地突然变更、短时间内交易频率异常拉升，就触发警报。

这种方法在规则清楚、场景固定的地方很好用，可是问题也很明显：规则需要人工不断维护，一旦场景变了，就得重写，很难应对复杂多变的情况。

神经网络

后来研究者引入了神经网络模型。它不再依赖人一条条写规则，而是让模型自己从数据里找规律。

神经网络借鉴了人脑神经连接的思路：大量节点相互连接，数据进来后，信号会在这些连接组成的网络中不断传递和计算，最后输出结果。如果结果错了，模型会自动调整节点之间的连接权重，让下一次结果更接近正确答案。

经过海量数据的反复训练，模型逐渐学会哪些特征更重要、不同信息之间存在什么关系。比如识别猫的图片，不需要人提前告诉它“耳朵尖、有胡须才是猫”，只要给它大量图片，它自己就能从像素中逐渐学会。

深度学习

深度学习可以看作神经网络的进一步发展，一个重要变化就是网络层数越来越多。从最初几层，扩展到几十层甚至上百层之后，模型能够识别和处理的信息也会越来越丰富。浅层通常只能识别边缘、颜色这些基础特征，更深的层则会逐渐理解形状、结构，乃至识别出完整的物体，比如一张脸、一只猫。

2012 年前后，随着算力提升和互联网数据爆发，深度学习在图像和语音识别上的效果开始明显超过此前的方法。

不过，早期神经网络和深度学习模型在处理语言时有一个明显问题：它们按顺序逐词读取内容，对长距离信息的记忆能力比较弱。短句里问题不大，但一旦上下文跨度变长，就容易“忘记前面说过什么”。

比如一个人先说：“我特别怕狗”，后来又说：“刚才那只狗朝我跑过来时，我马上躲开了”。人类很容易理解他为什么躲开，因为前面那句“我特别怕狗”，已经解释了后面的行为逻辑。但早期模型往往很难有效关联前面的信息，因此只能看到“狗跑过来”和“躲开了”，却不一定真正理解两者之间的因果关系。

Transformer 与大模型

转折点出现在 2017 年，一种叫 Transformer 的算法架构被提出。它引入了“注意力机制”：处理任意一个词时，模型能同时扫描整段话里所有其他词，计算彼此的关联程度，再决定怎么理解当前这个词。

这让模型处理语言的能力出现了明显提升，之后大模型的参数规模也开始迅速增长到千亿级。2022 年底 ChatGPT 横空出世，人们惊讶地发现，AI 不仅能理解复杂的语言，还能进行流畅的对话、创作和分析。

至此，AI 不再只是一个后台的分析工具，而是变成了能与人类自然交互的智能助手，大模型时代真正拉开帷幕。

二、参数是什么，规模越大越好吗？

举个简单的例子。比如你想预测一个人的月薪，假设用一个简单的线性关系来表示：月薪 = A × 工作年限 + B。这里 A 和 B 就是两个参数。拿一批真实数据去训练时，每次把预测结果和真实薪资对比，偏了就调整 A 和 B，反复迭代，直到误差足够小。

但只靠工作年限来预测月薪，显然不够。现实中，月薪还和学历、城市、行业、公司规模等因素有关。于是可以加入更多变量，每增加一个维度，模型就多一组对应的参数。维度越丰富，模型通常也就能捕捉更多信息，预测结果往往会更准确。

大模型背后的数学机制比这复杂得多，但底层逻辑是相通的：它本质上也是通过大量参数，去捕捉语言、逻辑、知识、上下文之间复杂的关系。只不过它处理的已经不是几个变量，而是海量信息之间极其复杂的关联，所以参数量会从几亿、几十亿一路扩展到千亿甚至更高。

不过，参数更多，并不意味着模型一定更聪明。如果训练数据本身质量很差，比如数据里有大量不准确、错误信息；或者训练次数不够，模型还没来得及充分学习这些变量之间的关系，那么这个模型预测出来的结果，可能还不如只用两个变量的简单版本。

更大的模型，只是提供了更高的潜在上限。能不能真正学出能力，还取决于数据质量、训练方法和算力投入。

三、模型是怎么训练出来的？

训练的第一步叫预训练。简单来说，就是不断让模型“猜下一个词”。比如“今天天气很”，答案是“好”，模型猜成了“差”。系统会告诉它猜错了，并自动调整它内部的参数，让它下次猜得更准一点。

这个过程会重复几千亿次。当模型需要处理越来越长、越来越复杂的文本时，如果它不理解前面的内容，就很难持续把后面的词猜对。通过这种训练，模型慢慢具备了语言理解能力。

预训练结束之后，模型其实还不太会回答问题。它像一个读了大量书的人，知道很多知识，可是从来没有真正和人交流过，不知道人真正想要什么。比如你让它“帮我规划去深圳的三天旅行”，它可能会围绕深圳不断生成很多相关内容，但不一定真正理解你需要的是一份清晰可执行的行程表。

所以后面还会有微调和对齐训练。这一步主要是让模型更符合人类的使用习惯：一方面，让它知道什么问题该怎么回答、哪些内容不应该输出；另一方面，也让它在具体任务上表现得更稳定，比如写代码时逻辑更严谨，做分析时结构更清晰。

这个阶段会有真人和模型对话，对它的回答打分，或者直接示范更好的答案，模型再根据这些反馈继续调整。相比预训练，这一步的数据量小很多，质量反而要求更高。几千条认真打磨过的高质量对话，有时候比几百万条普通文本更有价值。

现在行业还面临一个现实问题：高质量训练数据正在变得越来越稀缺。早期的大模型主要依赖大量公开文本去学习语言和知识，如今行业开始越来越重视推理能力和解决问题能力的训练。

所以很多公司开始探索新方向，比如让模型自己生成高质量答案，再拿这些内容继续训练下一代模型；或者专门设计大量推理题、数学题、代码任务，让模型在不断解决问题的过程中继续提升能力。

四、为什么各大公司都在疯狂建设数据中心？

训练大模型要消耗大量算力。参数越多、数据量越大、训练时间越长，需要的 GPU 就越多。值得注意的是，训练通常是阶段性的，一旦完成，这部分消耗就会明显下降。

相比之下，推理端的算力消耗是持续性的。模型每回答一个问题、生成一段内容、调用一次 AI 功能，背后都需要实时计算。未来随着越来越多个人和企业开始依赖 AI，推理需求必将持续增长。

这也是为什么科技公司现在持续投入 GPU、数据中心、电力和散热基础设施。它们押注的是：未来大量新增的计算需求，很可能都会和 AI 有关，而算力基础设施会成为整个行业最重要的底层支撑之一。

五、AI 现在处于什么阶段，未来会走向哪里？

AI 已经开始进入越来越多真实商业场景。从办公、客服，到教育、医疗、企业软件等领域，都能看到 AI 深度参与的身影。不过在多数企业中，AI 仍然更多扮演辅助工具的角色，还没有真正融入核心业务流程。

与此同时，还有几类方向仍在重点突破。

Agent

Agent 可以理解成一种不仅会回答问题，还能主动拆解任务、调用工具并连续执行的 AI。以前的 AI 更多是“告诉你怎么做”，Agent 则开始真正帮人完成任务，比如操作软件、调用系统工具，或者在多个应用之间协同工作。

进入现实世界的 AI

这包括机器人、自动驾驶、工业自动化等方向。在数字世界里处理文字和软件任务，跟真正进入现实环境、与真实世界交互，难度完全不同。

自动驾驶这几年进步非常快，在高速和部分限定场景中已经接近成熟，但想在所有复杂环境下都稳定运行，仍然还有不少难题。因为它不只要识别红绿灯，还要实时判断行人、天气、复杂路况，以及周围车辆下一步可能的动作。

机器人面临的问题会更复杂。听懂“把杯子拿过来”只是第一步，它还要知道杯子在哪、应该怎么抓、怎么避障，以及环境变化后如何实时调整动作。相比自动驾驶，机器人需要解决的问题更多，整体仍处于相对早期的阶段。

AGI：通用人工智能

AGI 简单来说，指的是一种能够像人一样，跨领域学习、理解和处理复杂任务的系统，而不是只擅长某一类事情。

现在的大模型距离 AGI 还有明显差距。它可以辅助分析财报，却很难像资深投资经理一样长期跟踪行业、动态更新判断，并持续做出成熟决策；它可以完成部分编程任务，却很难独立开发一个复杂的大型系统。

这些任务都需要长时间连续推理、跨任务规划和长期记忆，而这也是当前模型最薄弱的地方。

六、AI 产业链从上游到下游，各个环节都有哪些公司？

把 AI 产业链从上游到下游拆解，大致可以分成几个环节：芯片设计、芯片制造与设备、算力基础设施与电力、大模型，以及最终的产品和应用。

芯片设计

AI 模型的训练和运行都需要大量 GPU 芯片，可以把 GPU 理解成 AI 时代最核心的计算引擎。当前占据主导地位的是英伟达，此外还有 AMD、英特尔；国内则包括华为海思、寒武纪等。这些公司负责芯片的架构设计，但大多不自己建工厂，而是把设计方案交给代工厂生产。

除了 GPU，AI 算力还离不开 HBM，也就是高带宽存储芯片的配合。HBM 通常与 GPU 封装在一起，负责高速传输数据，直接影响整体计算效率。目前主要厂商包括 SK 海力士、三星电子和美光科技。与多数 GPU 设计公司不同，这类存储芯片厂商通常同时负责设计和生产。

芯片制造

全球最先进的代工厂主要是台积电和三星；国内是中芯国际，但在最先进制程上和台积电还有明显差距。加上出口管制的影响，国内高端芯片制造受限较大。

代工厂的技术水平直接决定了芯片能做到什么性能，也是整条产业链里技术门槛最高的环节之一。

半导体设备

芯片制造的上游，是半导体设备公司。生产一颗芯片，需要经过光刻、沉积、蚀刻、清洗等多道工序，每一步都离不开专用设备。

其中最关键的是光刻机，负责把芯片电路图案印到硅片上。生产最先进光刻机的是荷兰的阿斯麦，至今全球几乎没有替代者；此外还有应用材料、泛林集团等美国公司，提供沉积、蚀刻、清洗等设备。

这个环节行业集中度非常高，少数几家公司掌握了先进芯片制造最核心的能力。

算力基础设施

训练和运行 AI 模型，需要大量 GPU 和数据中心资源。对大多数公司和开发者来说，自建大规模 GPU 集群并长期维护数据中心，成本和门槛都很高。

所以就有了云计算公司：把大量 GPU 集中部署在大型数据中心里，再通过云服务的方式，把算力提供给外部用户。谁需要训练模型、部署 AI 应用，或者调用 AI 能力，都可以直接按需使用，而不需要自己从零建设整套基础设施。

海外核心玩家包括微软、谷歌、亚马逊、Meta；国内主要是阿里云、腾讯云、华为云。数据中心内部的网络互联同样是算力基础设施的一部分，涉及交换机、光模块等设备，相关企业包括博通、Arista，以及国内的中际旭创、新易盛等。

电力

支撑数据中心运转的是电力，这也是 AI 产业链里越来越重要的一环。根据 OpenAI 的数据，2024 年底 ChatGPT 每天处理超过 10 亿次提问，到 2025 年这个数字已超过 25 亿次，不到一年翻了一倍多。而这还只是一家公司的一个产品，全球同时还有大量 AI 服务在运行。

随着 AI 需求持续增长，全球数据中心的电力需求也在快速攀升。然而电力基础设施的建设周期很长，无论是发电、电网还是输电系统，都很难在短时间内大幅扩张。

这也是为什么市场开始重新关注电力供应端的投资机会，尤其是能够稳定、大规模供电的核电资产。海外市场，发电公司 NextEra 正在推进与谷歌的数据中心供电合作；Vistra 则已经与 Meta 签下长期核电供电协议。

大模型

大模型已经成为 AI 产业中竞争最激烈的领域之一。海外有 OpenAI 的 ChatGPT、Anthropic 的 Claude、谷歌的 Gemini；国内有深度求索的 DeepSeek、阿里的通义千问、百度的文心、腾讯混元等。

这个环节技术更新非常快，今天领先的模型，几个月后可能就会被追上。与此同时，开源模型也在持续缩小与闭源模型之间的差距。

产品和应用

这是商业化最活跃的地方。企业软件方向，Salesforce、ServiceNow 在把 AI 整合进客户管理、流程管理等系统；办公方向，微软 Copilot 已逐步嵌入 Office；消费端则出现了大量 AI 写作、AI 搜索、AI 教育、AI 编程类产品。

往更长期看，机器人、自动驾驶、智能终端等方向整体还在早期阶段。随着 AI 能力持续演进，长期来看空间很大。人形机器人方向有特斯拉的擎天柱、Figure AI、宇树机器人等；自动驾驶方面，Waymo 已在多个城市商业化运营，特斯拉的 FSD 持续迭代，国内萝卜快跑也在不断扩张。

七、如何看 AI 产业的投资机会？

投资 AI 产业，我会更关注两个问题：行业未来的发展空间，以及产业链里哪些环节确定性更高。

AI 的渗透才刚开始

AI 的潜力仍远未被完全释放，可是发展速度已经非常快。更重要的是，AI 带来的改变，不只是让某些工作提升效率，而是很多行业的工作方式正在被重新定义。

如果未来出现了足够强、甚至接近 AGI 水平的 AI，它可以通过云端被同时调用，所有企业都能以极低的成本获得高水平的智能支持。这种能力一旦成熟，对整个社会生产效率的影响会是根本性的。

产业链的确定性差异

产业链不同环节，确定性差别很大。

芯片设计和制造设备，竞争壁垒最高。 阿斯麦的光刻机、台积电的先进制程，背后都是多年的技术积累，其他竞争者短期内很难追赶。

算力基础设施和电力，确定性也比较高。 不管最终哪家模型公司胜出，训练和推理都需要 GPU，数据中心都需要电力，这部分需求并不依赖某一家公司的成败。而大规模数据中心的建设，也需要长期资本投入和技术积累。

模型层目前是竞争最激烈的环节。 不同模型正在形成各自擅长的方向，比如有的侧重推理能力，有的更适合代码和长文本任务，有的则在搜索和多模态方面表现更突出。模型层大概率不会只剩下一家公司，未来更可能是多家长期并存。

产品和应用目前还处于快速探索阶段。 很多产品刚推出时效果惊艳，但能不能真正形成用户习惯和持续付费，还需要时间验证。用户留存、客户粘性和商业模式，目前很多公司都还在摸索。

从投资角度看，我会优先关注确定性更高的芯片设计、芯片制造设备、算力基础设施和电力这几个环节。模型层会持续跟踪；应用层则更适合等行业格局和商业路径更清晰后，再进一步观察。

八、风险与机会

当前美股、A 股和港股的 AI 相关公司估值普遍偏高，很多公司未来几年的增长预期，已经提前反映在了股价中。与此同时，Agent、AGI、机器人、自动驾驶等方向仍面临大量技术难题，AI 最终能发展到什么程度，仍然存在很大不确定性。

那些尚未稳定盈利、主要依赖未来想象支撑估值的公司，一旦市场预期下调，股价波动往往会非常明显；相比之下，已经具备真实利润、稳定现金流和明确行业地位的公司，抗风险能力通常会更强一些。

真正好的机会，往往不出现在市场最狂热的时候。反而是在行业情绪降温、估值回落之后，更容易出现合适的买入时机。前提是，你已经对产业链各环节做了足够研究，能够判断哪些方向真正具备长期价值，哪些公司最终能够建立起可持续的商业模式。