如果说有什么行业值得长期关注,AI 大概率是绕不开的一个方向。自 2022 年 ChatGPT 发布以来,AI 很快从聊天、写文案、翻译,扩展到写代码、生成图片、制作视频等更复杂的任务。
更重要的是,AI 的发展可能还只是开始。无论是 Agent、自动驾驶、机器人,还是 AGI,现阶段都还远没有发展成熟。全球科技公司仍在持续投入大量资金建设数据中心、购买 GPU、训练模型。
对投资者来说,这既是机会,也意味着风险。当下 AI 行业技术迭代和竞争都非常激烈,今天领先的公司不一定是明天的赢家。在谈具体投资机会之前,有必要先把这个行业的底层逻辑弄清楚。
一、AI 的发展,经历了几个关键阶段
专家系统
人工智能早期最主流的一类方法叫专家系统。工程师把某个领域的经验写成规则,系统照章执行。比如早期的风控系统,会提前写好一套判断逻辑:如果账号登录地突然变更、短时间内交易频率异常拉升,就触发警报。
这种方法在规则清楚、场景固定的地方很好用,可是问题也很明显:规则需要人工不断维护,一旦场景变了,就得重写,很难应对复杂多变的情况。
神经网络
后来研究者引入了神经网络模型。它不再依赖人一条条写规则,而是让模型自己从数据里找规律。
神经网络借鉴了人脑神经连接的思路:大量节点相互连接,数据进来后,信号会在这些连接组成的网络中不断传递和计算,最后输出结果。如果结果错了,模型会自动调整节点之间的连接权重,让下一次结果更接近正确答案。
经过海量数据的反复训练,模型逐渐学会哪些特征更重要、不同信息之间存在什么关系。比如识别猫的图片,不需要人提前告诉它“耳朵尖、有胡须才是猫”,只要给它大量图片,它自己就能从像素中逐渐学会。
深度学习
深度学习可以看作神经网络的进一步发展,一个重要变化就是网络层数越来越多。从最初几层,扩展到几十层甚至上百层之后,模型能够识别和处理的信息也会越来越丰富。浅层通常只能识别边缘、颜色这些基础特征,更深的层则会逐渐理解形状、结构,乃至识别出完整的物体,比如一张脸、一只猫。
2012 年前后,随着算力提升和互联网数据爆发,深度学习在图像和语音识别上的效果开始明显超过此前的方法。
不过,早期神经网络和深度学习模型在处理语言时有一个明显问题:它们按顺序逐词读取内容,对长距离信息的记忆能力比较弱。短句里问题不大,但一旦上下文跨度变长,就容易“忘记前面说过什么”。
比如一个人先说:“我特别怕狗”,后来又说:“刚才那只狗朝我跑过来时,我马上躲开了”。人类很容易理解他为什么躲开,因为前面那句“我特别怕狗”,已经解释了后面的行为逻辑。但早期模型往往很难有效关联前面的信息,因此只能看到“狗跑过来”和“躲开了”,却不一定真正理解两者之间的因果关系。
Transformer 与大模型
转折点出现在 2017 年,一种叫 Transformer 的算法架构被提出。它引入了“注意力机制”:处理任意一个词时,模型能同时扫描整段话里所有其他词,计算彼此的关联程度,再决定怎么理解当前这个词。
这让模型处理语言的能力出现了明显提升,之后大模型的参数规模也开始迅速增长到千亿级。2022 年底 ChatGPT 横空出世,人们惊讶地发现,AI 不仅能理解复杂的语言,还能进行流畅的对话、创作和分析。
至此,AI 不再只是一个后台的分析工具,而是变成了能与人类自然交互的智能助手,大模型时代真正拉开帷幕。
二、参数是什么,规模越大越好吗?
举个简单的例子。比如你想预测一个人的月薪,假设用一个简单的线性关系来表示:月薪 = A × 工作年限 + B。这里 A 和 B 就是两个参数。拿一批真实数据去训练时,每次把预测结果和真实薪资对比,偏了就调整 A 和 B,反复迭代,直到误差足够小。
但只靠工作年限来预测月薪,显然不够。现实中,月薪还和学历、城市、行业、公司规模等因素有关。于是可以加入更多变量,每增加一个维度,模型就多一组对应的参数。维度越丰富,模型通常也就能捕捉更多信息,预测结果往往会更准确。
大模型背后的数学机制比这复杂得多,但底层逻辑是相通的:它本质上也是通过大量参数,去捕捉语言、逻辑、知识、上下文之间复杂的关系。只不过它处理的已经不是几个变量,而是海量信息之间极其复杂的关联,所以参数量会从几亿、几十亿一路扩展到千亿甚至更高。
不过,参数更多,并不意味着模型一定更聪明。如果训练数据本身质量很差,比如数据里有大量不准确、错误信息;或者训练次数不够,模型还没来得及充分学习这些变量之间的关系,那么这个模型预测出来的结果,可能还不如只用两个变量的简单版本。
更大的模型,只是提供了更高的潜在上限。能不能真正学出能力,还取决于数据质量、训练方法和算力投入。
三、模型是怎么训练出来的?
训练的第一步叫预训练。简单来说,就是不断让模型“猜下一个词”。比如“今天天气很”,答案是“好”,模型猜成了“差”。系统会告诉它猜错了,并自动调整它内部的参数,让它下次猜得更准一点。
这个过程会重复几千亿次。当模型需要处理越来越长、越来越复杂的文本时,如果它不理解前面的内容,就很难持续把后面的词猜对。通过这种训练,模型慢慢具备了语言理解能力。
预训练结束之后,模型其实还不太会回答问题。它像一个读了大量书的人,知道很多知识,可是从来没有真正和人交流过,不知道人真正想要什么。比如你让它“帮我规划去深圳的三天旅行”,它可能会围绕深圳不断生成很多相关内容,但不一定真正理解你需要的是一份清晰可执行的行程表。
所以后面还会有微调和对齐训练。这一步主要是让模型更符合人类的使用习惯:一方面,让它知道什么问题该怎么回答、哪些内容不应该输出;另一方面,也让它在具体任务上表现得更稳定,比如写代码时逻辑更严谨,做分析时结构更清晰。
这个阶段会有真人和模型对话,对它的回答打分,或者直接示范更好的答案,模型再根据这些反馈继续调整。相比预训练,这一步的数据量小很多,质量反而要求更高。几千条认真打磨过的高质量对话,有时候比几百万条普通文本更有价值。
现在行业还面临一个现实问题:高质量训练数据正在变得越来越稀缺。早期的大模型主要依赖大量公开文本去学习语言和知识,如今行业开始越来越重视推理能力和解决问题能力的训练。
所以很多公司开始探索新方向,比如让模型自己生成高质量答案,再拿这些内容继续训练下一代模型;或者专门设计大量推理题、数学题、代码任务,让模型在不断解决问题的过程中继续提升能力。
四、为什么各大公司都在疯狂建设数据中心?
训练大模型要消耗大量算力。参数越多、数据量越大、训练时间越长,需要的 GPU 就越多。值得注意的是,训练通常是阶段性的,一旦完成,这部分消耗就会明显下降。
相比之下,推理端的算力消耗是持续性的。模型每回答一个问题、生成一段内容、调用一次 AI 功能,背后都需要实时计算。未来随着越来越多个人和企业开始依赖 AI,推理需求必将持续增长。
这也是为什么科技公司现在持续投入 GPU、数据中心、电力和散热基础设施。它们押注的是:未来大量新增的计算需求,很可能都会和 AI 有关,而算力基础设施会成为整个行业最重要的底层支撑之一。
五、AI 现在处于什么阶段,未来会走向哪里?
AI 已经开始进入越来越多真实商业场景。从办公、客服,到教育、医疗、企业软件等领域,都能看到 AI 深度参与的身影。不过在多数企业中,AI 仍然更多扮演辅助工具的角色,还没有真正融入核心业务流程。
与此同时,还有几类方向仍在重点突破。
Agent
Agent 可以理解成一种不仅会回答问题,还能主动拆解任务、调用工具并连续执行的 AI。以前的 AI 更多是“告诉你怎么做”,Agent 则开始真正帮人完成任务,比如操作软件、调用系统工具,或者在多个应用之间协同工作。
进入现实世界的 AI
这包括机器人、自动驾驶、工业自动化等方向。在数字世界里处理文字和软件任务,跟真正进入现实环境、与真实世界交互,难度完全不同。
自动驾驶这几年进步非常快,在高速和部分限定场景中已经接近成熟,但想在所有复杂环境下都稳定运行,仍然还有不少难题。因为它不只要识别红绿灯,还要实时判断行人、天气、复杂路况,以及周围车辆下一步可能的动作。
机器人面临的问题会更复杂。听懂“把杯子拿过来”只是第一步,它还要知道杯子在哪、应该怎么抓、怎么避障,以及环境变化后如何实时调整动作。相比自动驾驶,机器人需要解决的问题更多,整体仍处于相对早期的阶段。
AGI:通用人工智能
AGI 简单来说,指的是一种能够像人一样,跨领域学习、理解和处理复杂任务的系统,而不是只擅长某一类事情。
现在的大模型距离 AGI 还有明显差距。它可以辅助分析财报,却很难像资深投资经理一样长期跟踪行业、动态更新判断,并持续做出成熟决策;它可以完成部分编程任务,却很难独立开发一个复杂的大型系统。
这些任务都需要长时间连续推理、跨任务规划和长期记忆,而这也是当前模型最薄弱的地方。
六、AI 产业链从上游到下游,各个环节都有哪些公司?
把 AI 产业链从上游到下游拆解,大致可以分成几个环节:芯片设计、芯片制造与设备、算力基础设施与电力、大模型,以及最终的产品和应用。
芯片设计
AI 模型的训练和运行都需要大量 GPU 芯片,可以把 GPU 理解成 AI 时代最核心的计算引擎。当前占据主导地位的是英伟达,此外还有 AMD、英特尔;国内则包括华为海思、寒武纪等。这些公司负责芯片的架构设计,但大多不自己建工厂,而是把设计方案交给代工厂生产。
除了 GPU,AI 算力还离不开 HBM,也就是高带宽存储芯片的配合。HBM 通常与 GPU 封装在一起,负责高速传输数据,直接影响整体计算效率。目前主要厂商包括 SK 海力士、三星电子和美光科技。与多数 GPU 设计公司不同,这类存储芯片厂商通常同时负责设计和生产。
芯片制造
全球最先进的代工厂主要是台积电和三星;国内是中芯国际,但在最先进制程上和台积电还有明显差距。加上出口管制的影响,国内高端芯片制造受限较大。
代工厂的技术水平直接决定了芯片能做到什么性能,也是整条产业链里技术门槛最高的环节之一。
半导体设备
芯片制造的上游,是半导体设备公司。生产一颗芯片,需要经过光刻、沉积、蚀刻、清洗等多道工序,每一步都离不开专用设备。
其中最关键的是光刻机,负责把芯片电路图案印到硅片上。生产最先进光刻机的是荷兰的阿斯麦,至今全球几乎没有替代者;此外还有应用材料、泛林集团等美国公司,提供沉积、蚀刻、清洗等设备。
这个环节行业集中度非常高,少数几家公司掌握了先进芯片制造最核心的能力。
算力基础设施
训练和运行 AI 模型,需要大量 GPU 和数据中心资源。对大多数公司和开发者来说,自建大规模 GPU 集群并长期维护数据中心,成本和门槛都很高。
所以就有了云计算公司:把大量 GPU 集中部署在大型数据中心里,再通过云服务的方式,把算力提供给外部用户。谁需要训练模型、部署 AI 应用,或者调用 AI 能力,都可以直接按需使用,而不需要自己从零建设整套基础设施。
海外核心玩家包括微软、谷歌、亚马逊、Meta;国内主要是阿里云、腾讯云、华为云。数据中心内部的网络互联同样是算力基础设施的一部分,涉及交换机、光模块等设备,相关企业包括博通、Arista,以及国内的中际旭创、新易盛等。
电力
支撑数据中心运转的是电力,这也是 AI 产业链里越来越重要的一环。根据 OpenAI 的数据,2024 年底 ChatGPT 每天处理超过 10 亿次提问,到 2025 年这个数字已超过 25 亿次,不到一年翻了一倍多。而这还只是一家公司的一个产品,全球同时还有大量 AI 服务在运行。
随着 AI 需求持续增长,全球数据中心的电力需求也在快速攀升。然而电力基础设施的建设周期很长,无论是发电、电网还是输电系统,都很难在短时间内大幅扩张。
这也是为什么市场开始重新关注电力供应端的投资机会,尤其是能够稳定、大规模供电的核电资产。海外市场,发电公司 NextEra 正在推进与谷歌的数据中心供电合作;Vistra 则已经与 Meta 签下长期核电供电协议。
大模型
大模型已经成为 AI 产业中竞争最激烈的领域之一。海外有 OpenAI 的 ChatGPT、Anthropic 的 Claude、谷歌的 Gemini;国内有深度求索的 DeepSeek、阿里的通义千问、百度的文心、腾讯混元等。
这个环节技术更新非常快,今天领先的模型,几个月后可能就会被追上。与此同时,开源模型也在持续缩小与闭源模型之间的差距。
产品和应用
这是商业化最活跃的地方。企业软件方向,Salesforce、ServiceNow 在把 AI 整合进客户管理、流程管理等系统;办公方向,微软 Copilot 已逐步嵌入 Office;消费端则出现了大量 AI 写作、AI 搜索、AI 教育、AI 编程类产品。
往更长期看,机器人、自动驾驶、智能终端等方向整体还在早期阶段。随着 AI 能力持续演进,长期来看空间很大。人形机器人方向有特斯拉的擎天柱、Figure AI、宇树机器人等;自动驾驶方面,Waymo 已在多个城市商业化运营,特斯拉的 FSD 持续迭代,国内萝卜快跑也在不断扩张。
七、如何看 AI 产业的投资机会?
投资 AI 产业,我会更关注两个问题:行业未来的发展空间,以及产业链里哪些环节确定性更高。
AI 的渗透才刚开始
AI 的潜力仍远未被完全释放,可是发展速度已经非常快。更重要的是,AI 带来的改变,不只是让某些工作提升效率,而是很多行业的工作方式正在被重新定义。
如果未来出现了足够强、甚至接近 AGI 水平的 AI,它可以通过云端被同时调用,所有企业都能以极低的成本获得高水平的智能支持。这种能力一旦成熟,对整个社会生产效率的影响会是根本性的。
产业链的确定性差异
产业链不同环节,确定性差别很大。
芯片设计和制造设备,竞争壁垒最高。 阿斯麦的光刻机、台积电的先进制程,背后都是多年的技术积累,其他竞争者短期内很难追赶。
算力基础设施和电力,确定性也比较高。 不管最终哪家模型公司胜出,训练和推理都需要 GPU,数据中心都需要电力,这部分需求并不依赖某一家公司的成败。而大规模数据中心的建设,也需要长期资本投入和技术积累。
模型层目前是竞争最激烈的环节。 不同模型正在形成各自擅长的方向,比如有的侧重推理能力,有的更适合代码和长文本任务,有的则在搜索和多模态方面表现更突出。模型层大概率不会只剩下一家公司,未来更可能是多家长期并存。
产品和应用目前还处于快速探索阶段。 很多产品刚推出时效果惊艳,但能不能真正形成用户习惯和持续付费,还需要时间验证。用户留存、客户粘性和商业模式,目前很多公司都还在摸索。
从投资角度看,我会优先关注确定性更高的芯片设计、芯片制造设备、算力基础设施和电力这几个环节。模型层会持续跟踪;应用层则更适合等行业格局和商业路径更清晰后,再进一步观察。
八、风险与机会
当前美股、A 股和港股的 AI 相关公司估值普遍偏高,很多公司未来几年的增长预期,已经提前反映在了股价中。与此同时,Agent、AGI、机器人、自动驾驶等方向仍面临大量技术难题,AI 最终能发展到什么程度,仍然存在很大不确定性。
那些尚未稳定盈利、主要依赖未来想象支撑估值的公司,一旦市场预期下调,股价波动往往会非常明显;相比之下,已经具备真实利润、稳定现金流和明确行业地位的公司,抗风险能力通常会更强一些。
真正好的机会,往往不出现在市场最狂热的时候。反而是在行业情绪降温、估值回落之后,更容易出现合适的买入时机。前提是,你已经对产业链各环节做了足够研究,能够判断哪些方向真正具备长期价值,哪些公司最终能够建立起可持续的商业模式。

