9月20日,在2023中国信息通信业发展高层论坛上,IEEE杰出行业领袖、全球云网宽带产业协会董事会主席、中国电信原总经理李正茂作题为《人工智能:从大连接到大数据再到大模型》的主旨演讲。李正茂在演讲中指出,电信运营商作为大连接的建设者、大数据的生产者和大模型的探索实践者,在人工智能发展中扮演了重要角色,有基础、有优势,更有前景。
今年以来,以ChatGPT(Generative Pre-trained Transformer,生成型预训练变换模型)为代表的大语言模型突然爆火,很快引发了“百模大战”。对全球新一轮的人工智能竞赛,电信运营商应该怎样认识,从中找准定位并确定下一步发展方向,李正茂结合人工智能的发展史,从大连接、大数据和大模型三个方面发表了自己的观点。
人工智能的概念产生于20世纪50年代,是研究开发用于模拟、延伸、扩展和学习人类智能的理论、方法、技术及应用系统的一门新技术科学。
李正茂表示,人工智能的研究目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作,并生产出能以人类智能相似的方式作出反应的智能机器,其主要研究领域包括机器人、图像识别、智能语音,以及语言处理和理解、规划、决策等,要解决的核心问题是构建与人类相似,甚至超越人类的推理、知识、规划、学习、交流、感知、移动和操作物体等能力。
20世纪70年代以来,许多国家先后开展人工智能研究,全球人工智能的发展经历了几次大起大落。在发展过程中,人工智能领域主要形成了三大学派。
一是符号主义(symbolicism),又称为逻辑主义、心理学派或计算机学派,主要研究抽象思维,主张用公理和逻辑体系模拟人的思维过程,搭建一套人工智能系统。符号主义者最先提出“人工智能”的概念,并在20世纪80年代取得很大发展。
二是连接主义(connectionism),又称为仿生学派或生理学派,主要研究形象思维,主张模仿人类的神经元,用神经网络的连接机制实现人工智能。连接主义的主要原理为神经网络及神经网络间的连接机制与学习算法,被业界称为“最普遍的人工智能”。
三是行为主义(actionism),又称为进化主义或控制论学派,包括工程控制论和生物控制论等,主要研究感知思维,早期研究重点是模拟人在控制过程中的智能行为和作用,后来发展到智能控制和智能机器人系统。
李正茂指出,在上个世纪,符号主义和连接主义此消彼长;直到本世纪初,连接主义的主要技术之一神经网络技术以“机器学习”(Machine Learning)“深度学习”(Deep Learning)为名,在图像识别、语音识别等领域取得了瞩目的成就,连接主义成为人工智能技术发展的主流,由此极大地促进了人工智能产业发展,先后开创了机器学习、深度学习和大模型这三个人工智能发展重要的里程碑。
在简要追溯人工智能的发展史之后,李正茂认为,从连接主义到机器学习,再到深度学习,神经网络间的连接机制与学习算法不断演进,引领着人工智能技术发展。而究其本质,是网络连接,是建立在复杂网络连接上的多层处理,这一概念与电信行业常说的“大连接”“泛在连接”的概念是一致的。
李正茂表示,从本源上看,电信业移动互联网、物联网等的繁荣,为人工智能连接主义(机器学习、深度学习)技术发展创造了条件,推动了人工智能、云计算等发展,共同促进全社会实现“大连接”,加速进入万物互联的数字化、智能化时代。
因此,李正茂认为,大连接是人工智能发展的基础。
人工智能的核心技术有计算机视觉、机器学习、自然语言处理、机器人技术及语音识别技术等,支撑这些技术发展的有三大要素:算力、算法和数据。李正茂认为大数据在其中发挥了重要作用,是人工智能技术和应用发展的关键。
移动互联时代,全球数据量加速增长。2010年左右,全球进入移动互联时代,4G和5G业务应用、物联网、产业互联网、视频业务等相继繁荣,共同带动数据量呈指数级增长,深入到经济社会生活的方方面面。
据统计,2011年全球数据总量达到1.8ZB,2020年全球数据总量达到60ZB,十年间增长了32倍多。而在2021年、2022年两年间,全球数据总量又增长了35.5%,2022年全球数据总量达到81.3ZB。
李正茂强调,高速增长的数据总量,奠定了人工智能等新技术突破的基础。人工智能技术发展的第二个里程碑“深度学习”,正是以大量的数据处理为基础,在2012年实现了图像识别与分类技术上的突破,并在2016年以人工智能机器人AlphaGo战胜韩国职业围棋棋手李世石为标志,登上“深度学习”的顶峰。
随着算法和算力网络能力不断提升,人工智能的产业应用越来越广泛,大数据、海量数据越来越发挥着关键作用。数字经济时代,数据要素是新的生产力。
当前,我国正处于数据要素市场建设探索起步阶段,但数据要素市场的需求已被激活。
李正茂表示,人工智能技术与大数据技术相互促进、共荣共生,一方面,将进一步增强大数据的“5V”特性。即增强大数据的Volume(海量数据规模)特性、Velocity(高速数据处理)特性,成倍扩展大数据的Variety(多样数据类型)特性,深入挖掘大数据的Value(应用价值)特性,并不断提升数据质量,增强Veracity(真实性)。另一方面,大数据“5V”不断赋能人工智能技术,催生其实际应用场景成熟,促进人工智能技术大规模、普适性发展及应用落地,更加智能化地挖掘数据中蕴含的价值,将多样化的数据资源转化为有价值的数据资产,全面支撑数字经济社会发展,为人类社会带来全新的智慧生产模式和生活方式。
因此,李正茂认为,大数据是人工智能发展的关键。
2020年5月,美国人工智能研究公司OpenAI发布语言模型GPT-3,是人类科技史上的里程碑事件。GPT-3证明了一个具有高水平复杂结构和大量参数的人工智能大模型可以实现深度学习,从而让大模型的概念得到前所未有的关注。
2022年11月,OpenAI公司基于GPT-3.5架构的大型语言模型,开发出自然语言处理工具ChatGPT,在两个月内用户数超过1亿户,成为历史上用户数增长最快的消费者应用,迅速引发了全球新一轮的人工智能竞赛。ChatGPT及一大批类似大模型的发展,标志着信息社会进入了大模型主导的新阶段。
李正茂指出,大模型是基于包括数学、统计学、电脑科学、物理学、工程学、神经学、语言学、哲学、人工智能学等多技术学科融合的一次突变。
在此基础上,人们形成了关于大模型的一些基本共识。
第一,大模型是大语言模型(Large Language Model,LLM),也是多模态模型(Multimodal Model)。
第二,GPT(Generative Pre-trained Transformer,生成型预训练变换模型)是大模型的一种形态,G代表生成性的(generative),P代表经过预训练(pre-trained),T代表变换器(transformer)。
第三,大模型引发了人工智能生成内容(Artificial Intelligence Generated Content,AIGC)技术的质变。因此,人类进入了大模型时代。
李正茂表示,大模型时代对人类社会带来了三大革命性变化,一是大模型推动弱人工智能向通用人工智能(Artificial general intelligence,AGI)跃升,二是大模型推动生产力从算力向机器智力跃升,三是大模型推动数字社会向智能社会跃升。从三大变化来看,我们断言,大模型将带来前所未有的改变,并不为过。
李正茂认为,大模型引领着人工智能2.0时代发展。在2.0时代,大模型分工愈来愈明确,并且有两个发展方向值得关注。
一是开源大模型。“百模大战”中,已经形成了以美国“OMG”和中国“BAH”为代表的两大群体,“OMG”指OpenAI公司的ChatGPT、MetaAI公司的LLaMA、Google公司的Gopher和LaMDA,“BAH”指百度的“文心一言”、阿里的“通义千问”和华为的“盘古”等。其中,MetaAI公司的LLaMA就是开源大模型。开源大模型能够更加灵活地实现不同应用组合,更具有竞争优势。
二是行业大模型。在通用大模型之外,行业大模型更具发展潜力。与通用大模型相比,行业大模型具有解决专业领域问题的能力更强、训练和部署成本更低、升级和迭代更加灵活等优点。可以预见,未来全球大模型的布局,将是十几个通用大模型,与成百上千个行业大模型互为补充。
因此,李正茂表示,大模型引领着人工智能2.0发展,是人工智能发展的精髓。
与此同时,大模型的发展也面临着较多挑战。比如,人工智能生成内容(AIGC)将对语言学、符号学、人类学、哲学、心理学、伦理学和教育学等广义思想文化领域产生冲击,对自然科学技术产生全方位冲击,进而影响到经济形态、社会结构,甚至会影响国际关系等。再比如,大模型对能源的消耗和对环境的影响,据估计,目前人工智能的能源消耗约占全球能源消耗的3%,据此推断,到2025年,人工智能将消耗15%的全球电力供应。显而易见,大模型等人工智能的快速发展,需要在政策和技术等方面提供解决方案。
综合上述论述,李正茂认为,电信运营商作为大连接的建设者、大数据的生产者和大模型的探索实践者,在人工智能发展中扮演了重要角色,有基础、有优势,更有前景。
李正茂指出,对于电信运营商而言,大模型发展带来的新机遇显而易见。
一是将极大地推动算力基础设施建设,要求我们加快算力网络和算力资源发展,优化算力网络和资源布局。
二是带来了全新的AI市场,运营商的网络连接优势,丰富的用户数据、行业数据,以及5G、云计算、大数据等技术能力,为AI技术创新应用提供了有利条件,能够在推动大模型规模化应用方面发挥更大作用。
三是利用AI技术大幅度提升网络智能化能力和服务智能化能力,降低运营成本,加快推动产业转型升级等。
基于这些判断,李正茂强调,在新的机遇面前,进一步增强对人工智能技术发展的理解,提升对大连接、大数据和大模型的认知,才能找准定位,探索出更好的发展方向。
附演讲全文:
人工智能:从大连接到大数据再到大模型
李正茂
今年以来,以ChatGPT(Generative Pre-trained Transformer,生成型预训练变换模型)为代表的大语言模型突然爆火,很快引发了“百模大战”。对全球新一轮的人工智能竞赛,电信运营商应该怎样认识,从中找准定位并确定下一步发展方向,我简要结合人工智能的发展史,从大连接、大数据和大模型三个方面,谈一谈自己的想法,供大家参考。
第一个方面,大连接是人工智能发展的基础
大家都知道,人工智能的概念产生于20世纪50年代,是研究开发用于模拟、延伸、扩展和学习人类智能的理论、方法、技术及应用系统的一门新技术科学。它的研究目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作,并生产出能以人类智能相似的方式作出反应的智能机器,其主要研究领域包括机器人、图像识别、智能语音,以及语言处理和理解、规划、决策等,要解决的核心问题是构建与人类相似,甚至超越人类的推理、知识、规划、学习、交流、感知、移动和操作物体等能力。20世纪70年代以来,许多国家先后开展人工智能研究,全球人工智能的发展经历了几次大起大落。在发展过程中,人工智能领域主要形成了三大学派:
一是符号主义(symbolicism),又称为逻辑主义、心理学派或计算机学派,主要研究抽象思维,主张用公理和逻辑体系模拟人的思维过程,搭建一套人工智能系统。符号主义者最先提出“人工智能”的概念,并在20世纪80年代取得很大发展。二是连接主义(connectionism),又称为仿生学派或生理学派,主要研究形象思维,主张模仿人类的神经元,用神经网络的连接机制实现人工智能。连接主义的主要原理为神经网络及神经网络间的连接机制与学习算法,被业界称为“最普遍的人工智能”。三是行为主义(actionism),又称为进化主义或控制论学派,包括工程控制论和生物控制论等,主要研究感知思维,早期研究重点是模拟人在控制过程中的智能行为和作用,后来发展到智能控制和智能机器人系统。在上个世纪,符号主义和连接主义此消彼长;直到本世纪初,连接主义的主要技术之一神经网络技术以“机器学习”(Machine Learning)“深度学习”(Deep Learning)为名,在图像识别、语音识别等领域取得了瞩目的成就,连接主义成为人工智能技术发展的主流,由此极大地促进了人工智能产业发展,先后开创了机器学习、深度学习和大模型这三个人工智能发展重要的里程碑。
简要追溯人工智能的发展史,可以看到,从连接主义到机器学习,再到深度学习,神经网络间的连接机制与学习算法不断演进,引领着人工智能技术发展。而究其本质,是网络连接,是建立在复杂网络连接上的多层处理,这一概念与电信行业常说的“大连接”“泛在连接”的概念是一致的。从本源上看,电信业移动互联网、物联网等的繁荣,为人工智能连接主义(机器学习、深度学习)技术发展创造了条件,推动了人工智能、云计算等发展,共同促进全社会实现“大连接”,加速进入万物互联的数字化、智能化时代。所以,我们说,大连接是人工智能发展的基础。这是我的第一个思考。
第二个方面,大数据是人工智能发展的关键
人工智能的核心技术有计算机视觉、机器学习、自然语言处理、机器人技术及语音识别技术等,支撑这些技术发展的有三大要素:算力、算法和数据。其中,大数据发挥了重要作用,是人工智能技术和应用发展的关键。
移动互联时代,全球数据量加速增长。2010年左右,全球进入移动互联时代,4G和5G业务应用、物联网、产业互联网、视频业务等相继繁荣,共同带动数据量呈指数级增长,深入到经济社会生活的方方面面。据统计,2011年全球数据总量达到1.8ZB(1ZB等于1万亿GB),2020年全球数据总量达到60ZB,十年间增长了32倍多。而在2021年、2022年两年间,全球数据总量又增长了35.5%,2022年全球数据总量达到81.3ZB。高速增长的数据总量,奠定了人工智能等新技术突破的基础。人工智能技术发展的第二个里程碑“深度学习”,正是以大量的数据处理为基础,在2012年实现了图像识别与分类技术上的突破,并在2016年以人工智能机器人AlphaGo战胜韩国职业围棋棋手李世石为标志,登上“深度学习”的顶峰。
随着算法和算力网络能力不断提升,人工智能的产业应用越来越广泛,大数据、海量数据越来越发挥着关键作用。我们说,数字经济时代,数据要素是新的生产力。当前,我国正处于数据要素市场建设探索起步阶段,但数据要素市场的需求已被激活。人工智能技术与大数据技术相互促进、共荣共生,一方面,将进一步增强大数据的“5V”特性。即增强大数据的Volume(海量数据规模)特性、Velocity(高速数据处理)特性,成倍扩展大数据的Variety(多样数据类型)特性,深入挖掘大数据的Value(应用价值)特性,并不断提升数据质量,增强Veracity(真实性)。另一方面,大数据“5V”不断赋能人工智能技术,催生其实际应用场景成熟,促进人工智能技术大规模、普适性发展及应用落地,更加智能化地挖掘数据中蕴含的价值,将多样化的数据资源转化为有价值的数据资产,全面支撑数字经济社会发展,为人类社会带来全新的智慧生产模式和生活方式。因此,我总结为,大数据是人工智能发展的关键,这是我的第二个思考。
第三个方面,大模型是人工智能发展的精髓
2020年5月,美国人工智能研究公司OpenAI发布语言模型GPT-3,是人类科技史上的里程碑事件。GPT-3证明了一个具有高水平复杂结构和大量参数的人工智能大模型可以实现深度学习,从而让大模型的概念得到前所未有的关注。2022年11月,OpenAI公司基于GPT-3.5架构的大型语言模型,开发出自然语言处理工具ChatGPT,在两个月内用户数超过1亿户,成为历史上用户数增长最快的消费者应用,迅速引发了全球新一轮的人工智能竞赛。ChatGPT及一大批类似大模型的发展,标志着信息社会进入了大模型主导的新阶段。
大模型是基于包括数学、统计学、电脑科学、物理学、工程学、神经学、语言学、哲学、人工智能学等多技术学科融合的一次突变。在此基础上,人们形成了关于大模型的一些基本共识,其中最根本的有:一、大模型是大语言模型(Large Language Model,LLM),也是多模态模型(Multimodal Model)。二、GPT(Generative Pre-trained Transformer,生成型预训练变换模型)是大模型的一种形态,G代表生成性的(generative),P代表经过预训练(pre-trained),T代表变换器(transformer)。三、大模型引发了人工智能生成内容(Artificial Intelligence Generated Content,AIGC)技术的质变。因此,人们说,人类进入了大模型时代。
大模型时代对人类社会带来了三大革命性变化:一是大模型推动弱人工智能向通用人工智能(Artificial general intelligence,AGI)跃升,二是大模型推动生产力从算力向机器智力跃升,三是大模型推动数字社会向智能社会跃升。从三大变化来看,我们断言,大模型将带来前所未有的改变,并不为过。
大模型引领着人工智能2.0时代发展。在2.0时代,大模型分工愈来愈明确。我个人认为,大模型有两个发展方向值得关注,一是开源大模型。“百模大战”中,已经形成了以美国“OMG”和中国“BAH”为代表的两大群体,“OMG”指OpenAI公司的ChatGPT、MetaAI公司的LLaMA、Google公司的Gopher和LaMDA,“BAH”指百度的“文心一言”、阿里的“通义千问”和华为的“盘古”等。其中,MetaAI公司的LLaMA就是开源大模型。开源大模型能够更加灵活地实现不同应用组合,更具有竞争优势。二是行业大模型。在通用大模型之外,行业大模型更具发展潜力。与通用大模型相比,行业大模型具有解决专业领域问题的能力更强、训练和部署成本更低、升级和迭代更加灵活等优点。可以预见,未来全球大模型的布局,将是十几个通用大模型,与成百上千个行业大模型互为补充。因此,我总结为,大模型引领着人工智能2.0发展,是人工智能发展的精髓。
与此同时,大模型的发展也面临着较多挑战。比如,人工智能生成内容(AIGC)将对语言学、符号学、人类学、哲学、心理学、伦理学和教育学等广义思想文化领域产生冲击,对自然科学技术产生全方位冲击,进而影响到经济形态、社会结构,甚至会影响国际关系等等。再比如,大模型对能源的消耗和对环境的影响,据估计,目前人工智能的能源消耗约占全球能源消耗的3%,据此推断,到2025年,人工智能将消耗15%的全球电力供应。大模型等人工智能的快速发展,需要在政策和技术等方面提供解决方案。
综合三个方面的论述,可以得出:电信运营商作为大连接的建设者、大数据的生产者和大模型的探索实践者,在人工智能发展中扮演了重要角色,有基础、有优势,更有前景。
对于电信运营商而言,大模型发展带来的新机遇显而易见。一是将极大地推动算力基础设施建设,要求我们加快算力网络和算力资源发展,优化算力网络和资源布局。二是带来了全新的AI市场,运营商的网络连接优势,丰富的用户数据、行业数据,以及5G、云计算、大数据等技术能力,为AI技术创新应用提供了有利条件,能够在推动大模型规模化应用方面发挥更大作用。三是利用AI技术大幅度提升网络智能化能力和服务智能化能力,降低运营成本,加快推动产业转型升级,等等。在新的机遇面前,进一步增强对人工智能技术发展的理解,提升对大连接、大数据和大模型的认知,才能找准定位,探索出更好的发展方向。
(根据9月20日在2023中国信息通信业发展高层论坛上演讲稿整理,略有删节)
附PPT全文:
指导:新文