讯飞轻熟,滔滔不绝
它有实力,也有决心去抢占AI时代的“根红利”。️文/刘宇翔
️编辑/王芳洁
当 50 岁的微软回望 24 年前的自己,它会惊讶地发现,它后来的辉煌,都源于那一年的落笔。
2001年10月25日,26 岁的微软正式推出Windows XP,彻底摆脱DOS内核依赖,基于Windows NT架构开发,该架构也成为往后数代Windows 操作系统的底层架构。同一年,微软发布的 Office XP进一步巩固办公软件市场优势地位,还推出了首款家用游戏主机Xbox,向硬件娱乐领域跨界扩张。
26 岁的微软,年轻、业务娴熟,充满朝气,对操作系统有深刻的理解,以此一步步开拓它的数字边疆,时至今日,数以亿计的设备奔跑着它的代码。
而比微软“小一岁”的苹果,尽管回归后的乔布斯带领公司从1997年的破产危机中走出,但仍面临市场份额低迷、业务增长乏力等挑战。2002 年,苹果推出了iPod,它以简洁的设计、创新的硬盘存储以及滚动式转盘控制,打开了数字音乐市场。
26 岁的苹果,终于将多年积累的工业设计+用户体验,落地为改变世界的产品。而今,苹果的产品线依然和它的产品设计一样简洁,但成千上万人会在第一时间抢购它的新品。
️如果说科技企业的成长和进化有个第一推动力,那应该是始于其创始时对某一领域有了深刻而独到的理解,它就像一颗种子,破土、发芽、生长,到了某一时间点,进入轻熟期,开始加速,最终长成参天大树。
我们发现,️对于很多科技企业来说,26 岁就是企业进入轻熟期时,它已积攒足够的势能,也有相对成熟的经验,身上想改变世界的朝气也还在,正是一家企业的当打之年。如2001 年的微软、2002 年的苹果、2013 年超越爱立信的华为,等等。
细细数来,今年还有一家科技企业也进入轻熟期时,它曾吮吸过863 计划的“营养”,并在 IBM、微软等的重围中破土萌发,是的,它的成立比一些国际大厂要晚的多,但它的创始人觉得没关系,“流水不必争先”。而今这家中国科技企业确已实现全栈自主可控的技术路线,有实力,也有决心去抢占AI时代的“根红利”。
️01
️打造技术护城河
1998年前后,科技界正为“千年虫问题”而投入大量精力时,人工智能发展也迎来了关键转折点,“机器学习时代”在黎明期等待破晓。
一年前,IBM的超级计算机深蓝战胜世界冠军卡斯帕罗夫,证明AI在规则明确的领域能超越人类。仅仅一年后,最早的卷积网络架构之一LeNet-5 ,就被用于文档识别。长短时记忆网络(LSTM)解决了传统循环神经网络(RNN)在处理长序列时的梯度问题,为日后的自然语言处理(NLP,包括语言模型、文本生成、机器翻译、语音识别等)奠定了技术基础。
语音技术是当时一个热门领域,作为全世界使用同一语言人口最多的中国,就成了外国科技巨头觊觎的超级大市场。1997 年,IBM推出了汉语连续语音识别系统ViaVoice,具有“自我”学习的功能。1998年,微软投资8000万美元在中国筹建微软中国研究院(2000年更名为微软亚洲研究院),开发的重点方向之一就是语音识别。一时之间,全国语音技术人才几乎都被这些巨头所“虹吸”。
当时是中国 863 计划的第12年,承担了该计划的语音合成技术(Text-to-Speech, TTS)项目的中科大语音实验室,在 1998 年交出了一份成果。这个由刘庆峰带队开发的KD863语音合成系统,不仅具备了优良的自然度,合成出来的语句近乎人声,成为国家863计划成果比赛中最为轰动的研究成果。
语音合成技术能将文本转换成自然流畅的语音,广泛应用于电话客服、导航系统、智能家居等多个领域。KD863语音合成系统的诞生,你可以理解为中国人在PC 世界的“嘴”终于长在了自己“脸上”。
️如果科研成果只停留在实验室里,束之高阁,那么最终还是会被后来者居上,把“嘴”抢过去。1999年,刘庆峰带领研发团队创立了科大讯飞,目标是打破中文语音技术被国外垄断的局面。这份带着斗志的目标,开启了中文语音技术产业化的元年。
2000年,科大讯飞将KD2000语音合成系统正式推向市场,在与国际巨头的竞争中脱颖而出,2001年,华为公司宣布正式采购讯飞公司的合成产品。
语言作为信息的载体,天然就是智能探索的钥匙,时任微软总裁的比尔盖茨说:“语音技术不只是简单地代表未来,而且代表信息本身的未来。”
即使国际巨头投入巨大,但“本土作战”的科大讯飞更懂中文,其语音合成技术在国内市场取得了领先地位,2001 年,智能语音平台开发厂商突破100家,2004年销售收入首次过亿元,扭亏为盈,标志着其盈利模式探索成功,为后续的发展奠定了基础。
随着科大讯飞在语音合成的深入探索,它将目光投向更复杂的语音识别技术,语音识别技术能将人类语音转换成文字,应用范围同样广泛,如语音助手、会议记录、医疗听写等。科大讯飞在这一领域同样取得了重大突破,其语音识别准确率达到了行业领先水平,即使是在嘈杂环境下,识别也稳定输出。
在语音合成、语音识别深耕多年后,科大讯飞来到了一个次元壁,那就是“语言-智能”。语音是语言的物质外壳,是语言的外部形式,也是最直接记录人的思维活动的符号体系,人类思维的过程天然依赖语言符号系统进行抽象与推理,而人类智能的核心能力(如逻辑分析、情感表达)均通过自然语言进行输出。
换而言之,语言的次元壁背后,就是智能。6月9日,在科大讯飞成立26周年之际,刘庆峰坦言,️过去26年,虽然科大讯飞先后涉足语音合成、语音识别、机器翻译、以及认知智能和大模型,但其实走的是“弯曲的直线”,这条直线就是人工智能主赛道。
但要让机器理解人类语言谈何容易,所用到的 NLP(自然语言处理)融语言学、计算机科学、数学于一体,而深入到人工智能,就需要对这些学科都融会贯通。有趣的是,刘庆峰除了拥有通信与电子系统、信号与信息处理学位,1995年还赴中国社科院跟随吴宗济教授研修过语言学。
从语音合成到语音识别,当穿过语音这层外壳,科大讯飞果然到了智能世界的边界:大模型。这是场不断打怪练级之路,能走到这一步的,算是拿到了 AI 的入场券。
此时基于神经网络的深度学习已经获得极大发展,2014年科大讯飞启动“讯飞超脑计划”,开始认知智能研发,让机器“能理解会思考”。2022 年科大讯飞发布“讯飞超脑2030”,提出通用人工智能演进路径。2023年5月6日,科大讯飞正式发布讯飞星火认知大模型,具有7大核心能力,即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模交互,对标ChatGPT ,并不断迭代,到 V4.0版本实现多模态深度交互,获 2024 年的国家科技进步一等奖。
通过语音合成切入到语言腹地,最终科大讯飞敲开了人工智能的大门,人工智能成为其核心能力。
和26年前一样,这一次刘庆峰还是决定要走完全自主可控的技术路线,哪怕相比使用英伟达等海外算力,基于国产算力开展大模型训练和算法创新存在诸多挑战,需要增加移植适配、性能调优、对比验证等额外步骤和额外算力。但讯飞有实力克服这些挑战,不再给别人卡脖子的机会。
事实证明,刘庆峰绝不是在画饼。进入2025年,科大讯飞就像开了挂似的,1月正式发布业界首个基于全国产算力平台训练的深度推理大模型——讯飞星火X1,利用更少算力实现业界一流效果;讯飞星火4.0 Turbo底座升级,行业首发混域知识搜索技术;业界首个具备端到端语音到语音同传能力的大模型星火语音同传大模型,达到人类专家译员的水平。2025年4月,讯飞星火X1二度升级,在模型参数量比业界同行少一个数量级的情况下,数学、代码、逻辑推理、文本生成、语言理解、知识问答等通用任务效果显著提升,整体效果对标OpenAI o1和DeepSeek R1。
“如果讯飞不付出,中国的算力支撑不了深度推理模型的训练!基于国产算力的新算法研发,会慢一些,但不会矮!”这是刘庆峰的决心。
已届轻熟之龄的科大讯飞,如同当年的微软、苹果,锐气十足。
️02
️当打之年
除了对语言、技术有深刻的理解,科大讯飞高强度的投入,也是其能进化为 AI 公司的重要原因。对于技术投入,刘庆峰一直的观点都是:“要有一桶水,才能倒出一碗水。
在宏观经济学理论里,诺贝尔经济学奖得主保罗·罗默为知识溢出模型中引入了知识资本概念,他认为知识具有非竞争性和部分排他性,其溢出效应使研发部门规模扩张,持续提升了全要素生产率,推动了经济发展。
如果把企业看作是一个小型经济体,其实这个理论也成立,持续的研发投入,聚集了人才,推动了创新和增长。科大讯飞每年将营业收入的20%左右用于研发,仅在2024年,科大讯飞在研发投入就达45.8亿元,占营收比例19.62%,目前拥有核心技术人员1000人,博士生100人左右,持续保持高人才密度、高压强投入,为技术创新提供坚实支撑。
可以相比较的是,在 2001 年财年,微软研发费用占营收比例为16.5%,微软的研发强度在当时科技巨头中处于领先水平,这也是为什么后来微软能击败IBM脱颖而出的重要原因。
️对于科技公司来说,对技术的积累和理解,是宽广的护城河,但科技公司毕竟是商业公司,将技术实力转化为产品力、商业力也是关键。
相比起业务繁杂的多元化企业,科技公司的核心能力在不同市场具有通用性,比如基础研发能力(如算法开发、硬件设计)可跨领域复用,数据采集、处理及模型优化能力适用于所有数字化场景,只需对不同细分市场做针对性封装、优化。一如基于Windows NT架构,微软面向家庭、专业、企业用户推出了不同产品。
而在AI时代,企业的进化速度取决于算法化基因改造能力——将核心能力封装为面向用户的可迭代智能模块。
从财报上看,科大讯飞 2024年全年营收达233.43亿元,同比增长18.79%,归母净利润5.6亿元,同时现金流创历史新高,经营性现金流净流入24.95亿元,同比激增超6倍。分板块来看,智慧教育、智慧汽车等业务板块表现突出,分别同比增长29.94%和42.16%。智慧教育业务收入占比达30.97%,是公司收入的重要支柱。此外,智慧医疗、开放平台及消费者业务也保持较高增速,分别同比增长28.18%和31.33%。
这些业务所用到的底层技术都是人工智能,而在原有的技术优势基础上,科大讯飞又提出了三大创新点:第一,国内首发基于快慢思考的统一模型训练推理方法;第二,提出结合评语模型和细粒度反馈的强化学习技术;第三,研发国产平台强化学习算法包,实现了全国产化算力深度推理模型训练效率优化。
此外,相比于同行,科大讯飞在数据,特别是行业数据的提取层面更有经验,在行业应用方面,基于自主可控的底座和对行业的深度理解,其能够更灵活、深入地打造行业应用。
目前,科大讯飞已为全国32个省级行政区、5万余所学校、1.3亿师生提供智慧教育产品和解决方案。今年高考期间,各家AI大模型迎来了一场“被动大考”,据三方权威媒体评测显示,讯飞星火X1在语文作文的综合得分,位列主流大模型榜首;在英语作文盲评中,获得第一,超越DeepSeek R1等模型;数学测评中,讯飞星火成为仅有的两个整卷得分突破140分的大模型之一。
在5月的世界数字教育大会上,基于讯飞星火X1的中小学科学教育智能导师,成为中国教科院在世界数字教育大会期间唯一发布的教育数字化成果,由科大讯飞提供核心技术支撑的武汉经开区神龙小学湖畔校区,是唯一向世界展示的基教示范观摩校,中国地质大学联合科大讯飞发布的地学大模型,武汉理工大学联合科大讯飞发布的材料大模型,作为高等教育领域学科大模型建设的标杆成果向世界展示。
在医疗领域,科大讯飞为医生打造了 AI诊疗助理、为居民打造了 AI健康助手,智医助理产品已在全国31个省市的680+个区县实现常态化应用,累计提供超9.3亿次AI辅诊建议,规范病历超3.6亿次,基于讯飞星火医疗大模型X1的全球首个1型糖尿病专病大模型发布,星火X1医疗大模型今年将在专科诊疗中达到三甲医院主治医生水平。
在工业领域,为全国10个省20多个地市提供基于工业感知、工业认知、工业大模型、能源大模型等工业AI技术的产品和解决方案,在高端装备制造业、能源行业等场景陆续打造行业示范应用,其中与中石油联合打造的昆仑大模型5月28日再次升级,行业知识问答采纳率超95%,代码开发效率提升73%,物资招采辅助评审准确率82%,安全生产作业识别准确率85%;与国家能源集团合作的智能评标助手实现人工提效与节支率提升,该系统在国资委网站被作为典型案例推荐。
在政务场景,其智办一体机发布后,覆盖4500多种标准化事项及相关政策文件、60多种票证材料。今年4月,科大讯飞助力安徽省检察院的安徽省检察院AI辅助办案系统已上线运行。
就连在竞争最为激烈的汽车市场,2024年,科大讯飞智能汽车业务新增前装智能化产品出货也超900万套,累计出货量超6300万套;年度在线交互次数达到136亿次,同比增长36%,月均活跃用户超2500万。
在知识溢出模型中,研发投入打造的核心基础能力,会创造出中间产品种类,它们可以应用到各行各业,中间产品供给增加,能极大提高经济增长率。体现到科大讯飞,随着讯飞星火大模型的持续迭代升级,以它为基础开发的新产品、新解决方案不断涌现,在增强了市场竞争力的同时,也为客户创造了价值,提升了销量和复购率,形成了正循环。
并且,️人工智能产品还具有“规模增加-智能提升”和成本边际递减效应,即使用的人越多,开发者越多,数据越多,大模型越智能,分摊的算力成本就越低。
招商证券研报就认为,科大讯飞的AI消费者产品、AI行业应用、AI开放平台三大AI落地商业化体系,随着应用规模的持续扩大,由数据驱动的“模型算法一产品价值一业务增长”商业飞轮效应正在不断显现。
进入当打之年的科大讯飞,确实“越来越能打”。
️03
️争的是滔滔不绝
企业是经济周期里的一艘船,经历周期才能刺激企业提升产品力、商业力,能活下来的企业,不仅只有技术实力,还有商业能力,仅有技术而没有经营能力,就只能被大浪淘沙。
微软、苹果、亚马逊都经历过经济周期,在周期里,它们做了调整,以适应市场变化,其中就包括出海和国际化。经历了数个经济周期,科大讯飞对市场、产品也有了更深的理解,此时,轻熟的科大讯飞有了加速国际化的能力。
国际化其实一种“奢侈品”,只有具有创新能力国家,才能产生技术与商业兼备的科技创新型企业,将能力、模式、产品复制到海外,经过本地化优化,形成极化效应(资源集聚)和扩散效应(技术溢出),在使得企业获得新增长曲线的同时,也带动周边发展。
现在全世界只有中美两个科技增长级,有科技创新型企业,中国企业正迎来出海和全球化的新机遇。
在全球化战略布局上,科大讯飞以“一带一路”沿线国家为国际化的重要增量方向,如中东、东南亚等区域。从2018年首次提出“让世界聆听我们的声音”到现在,科大讯飞的出海大致经历了三个阶段:品牌技术展示、探索与试水、精细化运营。
2018年科大讯飞首次参加了国际消费电子展(CES),展示了一系列人工智能产品,向国际市场亮明了其在语音识别、自然语言处理和智能硬件领域的技术实力。而在海外业务的第一站,科大讯飞选定了东南亚,制定了“1+4”战略,包含1 个以新加坡为中心的讯飞开放平台国际站,以及 4 项战略投资,分别是本地化投资、技术投资、产品创新投资、合作伙伴计划投资。
除了在新加坡设立区域总部外,科大讯飞还在泰国、马来西亚、沙特、阿联酋等国家建成本地化运营团队,并于2023年发布布达佩斯人工智能联合开放平台,面向欧洲提供AI服务。2024 年,科大讯飞亮相阿联酋迪拜通讯及消费电子展览会(GITEX GLOBAL 2024),结合中东本地化发布了多场景的AI解决方案,及讯飞同传和讯飞翻译机等产品。
️三个阶段为科大讯飞出海现实了“三足鼎立”:智能硬件出海、行业解决方案输出、技术生态全球化。
智能硬件出海方面,讯飞翻译机、讯飞AI录音笔、讯飞词典笔等产品已销往美国、韩国、日本、匈牙利、澳大利亚、新加坡、泰国、马来西亚、印尼、土耳其、阿联酋等国家及地区。行业解决方案输出,讯飞同传已成功助力COP28(联合国气候变化框架公约大会)、金砖国家媒体高端论坛、IAA世界广告大会等多个重要会议,为全球50多个国家及地区服务,支撑超40万场会议。技术生态全球化方面,讯飞开放平台国际站的上线为全球开发者提供语音识别、语音合成、机器翻译、图文识别等人工智能服务,目前相比2024年,海外开发者数从38.6万增加到50.9万,同比增长31.9%。
科大讯飞基于人工智能领域的全栈自主可控和丰富技术产品积累,正为海外用户提供更多智能产品、多语种大模型和整体解决方案。
科大讯飞不但自己出海,也帮助其他中国企业出海,2024 年,中国汽车出海前10强企业中就有8家和科大讯飞进行深度合作,讯飞座舱智能语音解决方案已帮助上百种车型出海60余个国家和地区,覆盖全球23种外语。
在周年庆上,刘庆峰表示,“未来,️一个国家和民族在全球影响力的标准之一,是全球有多少个主权大模型是由它输出的。如果说中国能向更多国家提供底座大模型能力,中华民族在全球的影响力很快就能上来。从这个角度来说,科大讯飞也要坚定不移地为世界提供第二选择。”
但出海并不是只有顺风洋流,还可能遭遇风暴。在神话传说里,远古的人类曾经讲同一种语言,团结起来的人类试图建造通往天堂的巴列塔,以“传扬自己的名”,但被神所嫉恨,将人类的语言变得混乱,无法相互理解,阻止了巴别塔的继续建造。
神话传说终究是神话传说,人类语言的多样性承载了不同的文化、思维,可以说是个智慧宝库,但语言的多样性也的确制造了沟通障碍,导致了文化交流、贸易交往不畅,产生了种种分歧乃至争端。
科大讯飞的 AI 产品在技术、产品层面解决了跨语言的交流难题,但需要应对世界贸易日益增加的矛盾。
为此,2025年,科大讯飞锚定“技术攻坚+应用拓展+双循环布局”三大战略方向:在核心技术层面始终保持国际领先,抢抓大模型发展机遇,用国际领先的核心技术为实际业务应用提供坚实保障,持续树立技术壁垒和领先优势;以创新优势解决社会刚需,积极推动人工智能相关技术的规模应用,实现人工智能技术与多行业、多领域的深度结合;从战略上逐步形成国内、国际两个市场的相互补充和风险对冲。
好消息是,尽管贸易受到地缘的影响,但“中国制造+中国孵化”正将势能转化为发展动能。正在举行的大阪世博会上,依托讯飞星火大模型打造的实时交互人工智能大模型“AI孙悟空”,是中国馆唯一的大模型展项,各国游客无论是想了解徽派建筑的独特魅力,还是探寻黄梅戏的起源故事,它都能对答如流,还能根据游客兴趣,定制专属旅游路线。
开馆54天,“AI 孙悟空”大模型互动4万+次,每分钟至少完成1次讲解+交互,涵盖天文地理、历史人文、旅游美食等方方面面,不少游客激起了前往中国旅游的兴趣。
你看,虽然巴列塔没能建成,但人们还是渴望交流、交易的,科技产品能让不同国家、文化的人们,建立起交往的桥梁。
️全球需求,需要中国供给。26 岁的科大讯飞,在轻熟的最好年纪,带着“悟空”,走向新的打怪练级之路,争取源头技术全球领先,应用大规模落地,只为“解放生产力、释放想象力,用人工智能建设美好世界”。
对了,刘庆峰有句话是这么说的:“流水不争先,争的是滔滔不绝。”