Measurement and Spatiotemporal Evolution Characteristics of Artificial Intelligence Invention Patents in Guangdong Based on the BERT Large Language Model

  • Yijia Chen , 1 ,
  • Juntao Tan , 2 ,
  • Ruilin Yang 3
Expand
  • 1. School of Economics and Management, Dongguan University of Technology, Dongguan 523808, Guangdong, China
  • 2. School of Geography, Geomatics and Planning, Jiangsu Normal University, Xuzhou 221116, China
  • 3. School of Economics, Jinan University, Guangzhou 510632, China

Received date: 2025-06-04

  Revised date: 2025-09-07

  Online published: 2025-12-28

Abstract

Artificial intelligence (AI) has emerged as a key driver of high-quality regional development by reshaping innovation systems, industrial structures, and spatial economic dynamics. Consequently, the scientific measurement of the spatial distribution and evolutionary trajectories of AI technologies has become a critical issue in economic geography. Existing empirical studies typically measure AI activity using enterprise registration data or granted invention patents based on proxy variables, keyword searches, or the International Patent Classification system. However, these methods often suffer from limited semantic accuracy and incomplete coverage, making it difficult to fully capture the rapidly evolving and context-dependent nature of AI technologies. To address these limitations, this study developed a semantic-based identification framework based on large language models. Drawing on approximately 1.2 million granted invention patent abstracts from Guangdong Province between 2001 and 2021, we employed Bidirectional Encoder Representations from Transformers (BERT) large language model to identify AI-related technologies based on deep semantic understanding. This approach yielded a dataset of approximately 200,000 AI-related patents and provided a more comprehensive and accurate representation of regional AI innovation activities. Building on this dataset, we applied BERTopic for topic modeling to identify major technological themes and trace their temporal evolution. The empirical results reveal several key findings. (1) From a temporal perspective, the evolution of AI technologies in Guangdong Province followed a clear two-stage trajectory. During the initial stage from 2001 to 2014, AI patenting activities remained at a relatively low level, gradually increasing from 37 patents in 2001 to 3,514 in 2014. By contrast, the period from 2015 to 2021 represents a phase of rapid expansion, characterized by a sharp increase in AI patenting activities and a substantial acceleration in innovation intensity. This shift indicates the growing strategic importance of AI in regional innovation systems. (2) From a spatial perspective, AI technologies are highly unevenly distributed across Guangdong Province, exhibiting strong agglomeration in the Guangdong-Hong Kong-Macao Greater Bay Area. Shenzhen and Guangzhou together account for 75.1% of all AI patents in the province, forming a pronounced core region of AI innovation. Shenzhen contributed to more than half of the provinces' AI patents, demonstrating a strong primacy position. Beyond these two leading cities, Dongguan, Zhuhai, and Foshan constituted the secondary tier in terms of patent volume. Further analysis of co-invention patents revealed the network characteristics of AI technological collaboration. Within Guangdong Province, inter-city cooperation exhibited a clear dual-core structure centered on Guangzhou and Shenzhen, with dense collaborative linkages concentrated in the Greater Bay Area. While Shenzhen dominates AI patent production, Guangzhou demonstrates the highest level of intraprovincial collaboration, indicating a stronger coordinating and connective role within regional innovation networks. (3) In terms of technological content, topic modeling identified five major AI technology themes: data and image processing, robotics and automation devices, intelligent transportation and fault detection, smart homes and environmental control, and bio-simulation and image analysis. Among these themes, data and image processing constituted the most active and foundational domains throughout the study period, entering a phase of rapid growth around 2013 and peaking in 2019. Robotics, intelligent transportation, and smart home technologies have expanded markedly after 2015, reflecting the increasing diversification and application-oriented nature of AI innovation. By contrast, biosimulation and image analysis exhibited modest growth, suggesting a narrower range of applications. Moreover, cities within Guangdong displayed differentiated thematic advantages, reflecting the distinct trajectories of regional AI specialization. Shenzhen has maintained a leading position in image and data processing, as well as robotics; Guangzhou has developed distinctive strengths in intelligent transportation and urban service applications; Zhuhai integrated AI into its home appliance manufacturing base and marine technologies; Dongguan focused on AI applications in intelligent manufacturing and environmental governance; and Foshan emphasized the integration of smart home technologies with industrial automation.

Cite this article

Yijia Chen , Juntao Tan , Ruilin Yang . Measurement and Spatiotemporal Evolution Characteristics of Artificial Intelligence Invention Patents in Guangdong Based on the BERT Large Language Model[J]. Tropical Geography, 2026 , 46(1) : 154 -166 . DOI: 10.13284/j.cnki.rddl.20250373

当前,全球正经历一场深刻的技术革命与产业变革,人工智能(Artificial Intelligence, AI)已成为这一变革的战略引擎。中国高度重视AI发展,在2024和2025年连续2年政府工作报告中提出“人工智能+”行动,强调把握AI技术变革的战略机遇,推动产业转型升级,培育未来产业,为新质生产力的发展注入强劲动能。2025年8月,国务院又发布《国务院关于深入实施“人工智能+”行动的意见》(国务院,2025),明确提出推动人工智能与经济社会各行业深度融合,加快构建智能经济和智能社会新形态。与此同时,中国AI产业也快速崛起,涌现出一系列引领全球技术潮流的创新成果。其中,Deepseek等国产大模型在自然语言处理、代码生成、智能搜索等领域取得突破性进展,展现出强大的技术竞争力。此外,华为盘古大模型、百度文心一言、阿里通义千问等自主研发的AI系统,在多模态理解、智能对话、自动驾驶、医疗影像分析等方面持续取得重要突破。
在这一宏观背景下,AI不仅推动产业与社会的深刻变革,也逐渐成为学科研究的重要对象。地理学界尤其关注AI技术的双重角色:一方面,AI作为研究工具,为地理学提供了强大的技术赋能;另一方面,AI作为研究对象,其自身的空间格局与演化值得深入探讨。如2024年第10期《地理学报》连续刊载2篇文章对地理学和AI进行探讨。李宇航等梳理机器学习、计算机视觉、自然语言处理、规划系统以及大模型等不同AI技术的发展脉络及其在地理学的应用,并展望AI时代的地理科学前沿问题(李宇航 等,2024)。杨永春等(2024)聚焦AI在城市地理学发展的变革与挑战,并从数据表达、场景应用、空间变革、城市发展等4方面展开讨论。在经济地理领域,学者也对AI展开多方面探索,在AI发展的时空格局(Buarque et al., 2020; Doloreux et al., 2021邹伟勇 等,2022Xiao & Boschma, 2023张平 等,2024;Chen & Wu, 2025)、AI创新合作(陈鹏鑫 等,2023冯瑜满 等,2025)和AI赋能区域绿色产业创业等方面(Cicerone et al., 2023刘青 等,2023邝劲松 等,2024刘亮 等,2024)已取得初步进展。
然而,要深入探讨AI技术的空间格局与演化(将AI视为研究对象),首要前提是解决“如何科学测度AI技术活动”。当前经济地理学的主流测度方法大体可分为3类:1)使用代理变量法。如刘亮等(2024)使用显卡进口总额作为不同省市AI算力水平的代理变量;邝劲松等(2024)使用分行业工业机器人使用数量作为不同省市AI发展的代理变量。2)使用关键词搜索。其中大多数学者基于国家企业注册数据库,将营业范围包含AI、计算机视觉、人脸识别等领域的企业判定为AI企业(邹伟勇 等,2022张平 等,2024邝劲松 等,2024),还有学者基于发明专利申请数据,采用AI作为关键词进行筛选并识别出AI专利(冯瑜满 等,2025)。3)使用WIPO的国际专利分类AI清单。学者使用WIPO制定的国际专利分类AI清单的分类号,检索得到各城市的AI专利申请数量,以衡量AI技术水平(Doloreux et al., 2021; Xiao & Boschma, 2023;Chen & Wu, 2025)。但这3种主流方法在测度AI技术活动仍存在以下不足:1)代理变量法采用间接的方式,并没有直接测量AI技术。如采用工业机器人测度的是机器人而并非直接的AI。2)关键词搜索过于依赖关键词的设定,并且所检索的文本即使包含关键词也不一定代表文本是描述AI。如企业在经营范围写入AI并不一定代表其实际从事AI相关业务,又如,专利CN205318121U的标题和摘要中提到AI,但其描述的主要内容并未深入涉及具体的AI算法或技术。3)尽管WIPO制定了国际专利分类AI清单的分类号,但事实上并不是清单中的国家专利分类号都涉及AI。如AI清单里面的国际专利分类号G06T3,其涉及图像分析技术,若采用传统的如边缘检测或卡尔曼滤波等图像处理算法而无学习过程,则不属于AI范畴。整体上,这些方法在准确性和覆盖面上均存在显著局限,难以全面识别真正涉及AI技术的内容。
近年来,学界开始探索利用大语言模型改进技术识别精度。在经济地理研究中,Kriesch与Losacker基于全球专利数据,借助预训练的Transformer模型从专利摘要中识别出生物经济相关发明,并结合主题建模构建了跨领域的技术版图(Kriesch & Losacker, 2024)。研究表明,相较于依赖关键词或分类号的方法,语义模型在技术识别中的召回率与准确性更高,为经济地理学提供了更精细化的语义测度工具。与此同时,Broekel基于地方新闻文本构建区域经济情绪指数,验证了大模型方法在捕捉地区经济波动方面的有效性及其前瞻性价值(Broekel, 2025)。在经济地理之外的社科研究中,相关探索也不断涌现。如刘青与肖柏高结合预训练语言模型与专利摘要,成功地识别劳动节约型技术创新,展示了大语言模型在专利口径识别中的可行性与有效性(Vaswani et al., 2017)。总体上,这些进展不仅为本文的方法提供了参照,也表明将大语言模型应用于专利文本识别具有坚实的学术基础与实践价值。
顺应这一趋势,本文引入BERT(Bidirectional Encoder Representations from Transformers)预训练语言模型,选用bert-base-chinese(中文BERT-Base版本)进行微调,利用其深度语义理解能力,将授权发明专利作为衡量AI技术活动的可观测代理,对广东省2001—2021年约120万条专利摘要进行识别与分类,精准提取其中涉及AI技术的专利,从“时间-空间-主题”3个维度揭示广东省AI技术活动的时空格局与演化特征。以期为系统刻画广东省人工智能技术发展的阶段性特征、区域差异与演化路径提供新的数据支撑与方法范式,并为相关政策制定提供实证支撑。

1 基于大语言模型的AI发明专利识别与主题建模方法

为克服传统方法在识别AI发明专利的局限性,本文引入基于语义理解的预训练语言模型BERT。BERT由Google于2018年提出,其核心技术创新在于通过Transformer结构实现对上下文的双向编码。Transformer结构基于自注意力机制,允许模型在处理每个词时同时关注序列中其他所有位置的词,从而充分捕捉全局语义信息。具体地,在模型架构上,BERT属于一种仅含编码器(encoder-only)的预训练语言模型。其基本单元是由多层Transformer编码器堆叠而成,每层编码器均包含多头自注意力机制和前馈全连接网络,并通过残差连接与层归一化保证深层训练的稳定性(Devlin et al., 2019)。BERT的核心原理在于对文本进行深度双向语境建模。在预训练阶段,模型主要依赖2类任务学习通用语义表示:1)掩码语言建模(Masked Language Modeling, MLM),即随机遮蔽输入文本中的部分词语,并要求模型根据上下文预测被遮蔽的词,从而捕捉双向上下文的语义信息;2)句间关系预测(Next Sentence Prediction, NSP),旨在判断2个句子在原始语料中是否相邻,以建模跨句层面的语篇关联(Rogers et al., 2020)。而在下游任务中,BERT通过微调(fine-tuning)的方式迁移到特定应用。以文本分类为例,模型在输入序列的开头增加一个特殊标记[CLS],该位置的输出向量被视为整段文本的语义表示。在分类任务中,[CLS](Classification token,分类标记)向量会接入一个线性分类层,并通过交叉熵损失函数进行监督训练,从而学习到区分不同类别的判别特征。换言之,BERT的作用不仅在于理解单个词的含义,更在于通过深层双向语境建模,为文本生成一个能直接支持分类决策的语义向量表示(Grootendorst, 2022)。因此,作为深度神经网络结构的一种,Transformer与传统架构存在显著差异。相较于循环神经网络(Recurrent Neural Network, RNN)及其改进形式长短时记忆网络(Long Short-Term Memory, LSTM),Transformer在处理长序列时避免了递归计算所带来的顺序依赖,能实现高效的并行化训练,从而显著提升计算效率。同时,Transformer通过多头自注意力机制克服了RNN/LSTM在长距离依赖建模中容易出现梯度消失或信息衰减的问题,使模型能更全面、精准地捕捉全局语义关系。凭借这些优势,基于Transformer的BERT在多种自然语言处理任务中均展现出优于传统深度神经网络模型的性能。
正因如此,BERT在文本表示和语义理解方面具备传统方法所不具备的优势。与传统的基于关键词匹配的识别和测度AI的方法不同,BERT能捕捉上下文中词语的深层语义关系,从而在AI文本识别中展现出显著优势。具体而言,一方面,BERT除了可识别明确提及AI相关关键词的文本,还可识别出那些未明确提及AI相关关键词,但在技术层面涉及AI技术的文本。另一方面,BERT能区分那些虽然提及AI字样,但实际内容仅为泛泛而谈、未涉及技术细节的文本。总之,相较传统的关键词方法,BERT模型能显著提高AI相关文本识别的精度与可靠性。
本文采用“标注+微调+推断”的范式,使模型在中文专利语境下针对“涉AI/非涉AI”二分类任务进行定向适配。将利用BERT模型对授权发明专利申请数据进行AI技术识别,构建基础数据集。具体步骤如下(图1):
图1 基于BERT模型的广东省AI发明专利识别研究流程

Fig.1 Research workflow for identifying AI invention patents in Guangdong Province based on the BERT model

1)确定文本分析对象。考虑到中国AI相关技术的系统性发展始于本世纪初,本研究以2001—2021年广东省授权公开的发明专利摘要为研究对象,共计约120万条专利摘要文本,构成识别与筛选AI技术专利的基础数据源。选择广东省为研究区域,主要考虑到广东省在全国AI发展格局中所体现的先发优势与综合实力。
2)文本预处理。通过正则表达式去除下划线、特殊字符、网址、电子邮件地址、电话号码及多余的空白字符,以标准化文本内容,为后续的模型处理做准备。
3)标注训练样本。从2001—2021年约120万条广东省授权的发明专利中,随机抽取了10 000条专利摘要文本,作为训练语料。为标注专利摘要是否涉及AI技术,首先要对AI技术进行定义,本文融合经济合作与发展组织、世界银行和中国国家知识产权局对AI的定义,认为AI是一种基于机器的软件或系统,能模拟人类智能,以执行通常需要人类认知能力的任务。具体而言,AI利用高级统计和数学模型(如机器学习、深度学习、神经网络、模糊逻辑、遗传算法等),通过从数据中学习并自动优化,推断输入信息并生成预测、内容、推荐或决策,以实现明确或隐含的目标。根据该定义,对10 000条专利摘要文本进行标注,标识其是否明确涉及AI相关技术。
4)训练BERT分类模型。基于前述标注样本,对bert-base-chinese模型进行有监督微调。该模型属于中文单语BERT-Base版本(12层Transformer、隐藏维度768、12个注意力头,参数规模约1.1亿),采用中文子词与字符级切分策略,能较好地覆盖专利文本中的专业术语及新词变体。模型训练过程中,将数据集按8:2的比例划分为训练集与验证集,以确保模型在学习与评估环节的独立性。验证集上的结果显示,模型取得较优的分类性能,精确率(Precision)为82.85%,意味着在所有被预测为AI技术相关的文本中,有82.85%属于真实正例;召回率(Recall)为86.64%,即模型在真实AI技术文本中实现了86.64%的识别覆盖;F 1值为84.7%,作为精确率与召回率的调和平均,能在类别分布不均衡的情境下全面地反映模型整体性能。综上所述,微调后的bert-base-chinese在中文专利文本的AI技术识别任务中表现出良好的泛化能力与稳定性,为后续大规模专利数据的自动化筛选提供了坚实支撑。
5)模型应用与预测。使用训练完成的BERT模型,对2001—2021年全部待预测的专利摘要文本进行分类判断,自动识别其中涉及AI技术的内容。最终,在约120万条专利摘要中,共筛选出206 654条被判定为涉及AI技术的专利文本。
在获得AI发明专利样本后,进一步采用BERTopic对其摘要文本开展主题识别,以揭示不同城市在AI发明专利上的关注领域及其演化特征。BERTopic属于一种基于预训练语言模型嵌入的主题建模方法。它结合Transformers预训练模型与c-TF-IDF技术(class-based Term Frequency-Inverse Document Frequency,类内词频-逆文档频率),能在语义空间生成高密度聚类,从而获得既准确又可解释的主题,并在主题描述中保留关键术语。其基本流程包括4个步骤:1)利用BERT等预训练语言模型将每条文本编码为语义向量;2)采用UMAP(Uniform Manifold Approximation and Projection,非线性流形降维算法)将高维语义向量压缩至低维空间,以增强簇的可分性;3)使用HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise,带噪声的层次密度聚类算法)在嵌入空间中自动识别主题簇并标注噪声点;4)将簇内文本合并为类文档,并基于c-TF-IDF抽取每个主题的代表性词/短语,进而生成可解释的主题词表(Grootendorst, 2022)。与传统“先设定主题数再分配”的主题建模方法不同,BERTopic的优势在于先通过语义向量自然聚类,再从聚类结果中提取主题,从而在保持语义准确性的同时兼顾主题的可解释性。

2 广东省AI发明专利的时空演化特征

2.1 AI发明专利的时间演化特征

依据大语言模型对广东省2001—2021年的AI发明专利进行识别,并计算AI发明专利占总发明专利数的比重(图2)。从专利数量看,2001—2021年广东省AI发明专利大致经历了2个发展阶段:2001—2014年属于缓慢增长阶段,2015—2021年属于快速增长阶段。2001广东AI发明专利数量为37项,至2014年增长为3 514项,年均增长率为38.4%,整体属于低水平的缓慢增长阶段,该阶段主要是由于互联网技术的快速发展加速了AI的创新,促使AI技术逐步走向实用。2015广东AI发明专利数量为8 187项,2019年增长至38 426项,年均增长率高达81.8%,这与AI已逐渐发展成为中国重要的国家战略密切相关。2014年6月,习近平总书记在两院院士大会的讲话上首次对AI和相关智能技术进行高度评价,2015年政府工作报告进一步对AI技术的重要作用给予充分肯定,此后出台了包括《中国制造2025》《“互联网+”人工智能三年行动实施方案》等政策文件,促进AI的迅速发展。2020年以后AI发明专利数量出现波动,这主要是由于专利从申请到授权公布的时间差造成的技术性原因,近几年申请的很多专利在本研究数据收集阶段(2022年)还未授权公开。从AI发明专利占比看,2001—2021年广东省AI发明专利占整体呈上升趋势,从2001年的1.7%增长至2021年的16.4%,尤其是2012年AI发明专利占比增长明显加快。
图2 2001—2021年广东省AI发明专利数量及占比

Fig.2 Number and proportion of AI patents in Guangdong Province during 2001-2021

2.2 AI发明专利的空间分布与合作网络

计算2001—2021年广东省21个地级市累计AI发明专利数量(图3-a)及其占总专利数的比例(图3-b),利用ArcGIS自然断裂法将21个城市分为5类(高、较高、一般、较低和低),结果如图3所示。从AI发明专利数量看,广东省AI发明专利高值区域主要集中在大湾区,空间集聚特征显著,区域极化现象非常明显,仅深圳和广州2个城市就占全省AI发明专利的75.1%。深圳属于高水平区域,广州属于较高水平区域,东莞、珠海和佛山属于一般水平区域,惠州属于较低水平区域,而中山、江门等15个城市属于低水平区域。2021年深圳的AI发明专利总量累计111 690项,占全省比例为52.5%,远超排名第二位的广州市(48 106项),首位度高达2.32。深圳已发布《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023—2024年)》,目前正加快打造AI先锋城市,在智能产品、应用场景、智能网联汽车等领域重点发力,已形成华为、腾讯等领头企业引领,元象科技、思谋科技等高成长性企业支撑,一大批初创型企业协同发展的良好格局,其AI技术在全省遥遥领先。
图3 广东省21个地级市AI技术专利数量及其占比分布

注:此图基于自然资源部标准地图服务网站下载的审图号为GS(2024)0650号的标准地图制作,底图无修改;图4同。

Fig.3 Distribution of AI patent numbers and their proportions in Guangdong Province

从AI发明专利数占总发明专利数的比例看,广东省AI发明专利占比高值区域也呈现一定的空间集聚特征,大湾区城市出现了比较明显的高值集聚,但极化不严重。深圳、珠海、广州和东莞4个城市的AI发明专利占比均超过10%,属于高值区域;佛山、惠州和汕尾属于较高水平区域,梅州和汕头属于一般水平区域,揭阳、清远等8个城市属于较低水平区域,潮州和云浮等4个城市属于低水平区域。通过对比AI发明专利数量和占比2项指标可发现,深圳和广州2个城市AI发明专利数量和占比均处于领先地位,而珠海和东莞2个城市虽然AI发明专利数量不高,但占比却较高。尤其是珠海市2023年GDP总量4 233.2亿元,在广东省排名第6,但其AI发明专利数量占比却高达12.4%,仅次于深圳(14.1%)。珠海高新区作为广东省首批5个AI产业园区,也是首批国家级高新区之一,致力于以AI赋能新型工业化,工智能与机器人产业链不断完善,对提升珠海市AI技术发展有重要作用。
为进一步揭示广东省AI发明专利的合作特征,基于合作申请的发明专利构建城市间合作网络。具体而言,若一项专利的申请人包含2个及以上不同单位,且这些单位分别位于不同城市,则认定该专利为一次跨城市合作。对于同一专利(即一条专利记录)中出现的多个城市,提取其所有可能的城市两两组合,并将每一对城市视为一次合作关系。对于合作网络,从无向网络和有向网络2方面进行分析,其中无向网络关注2个城市的专利合作量,而有向网络通过第一申请人所在城市向其他合作单位辐射形成有向网络,结果如图4所示。
图4 广东省AI发明专利合作无向网络和有向网络

Fig.4 AI patent collaboration network in Guangdong Province

分析无向合作网络(图4-a)可得出:1)广州和佛山2个城市的AI发明专利合作强度最高,联系值为390,其次广州与深圳(联系值364)、深圳与东莞(联系值306)、广州与珠海(联系值258)以及广州与东莞(联系值244)4组城市属于高合作联系城市,其他城市合作网络强度较低。2)从AI发明专利合作的联系空间分布看,广东省技术网络合作高密度区域空间集聚特征显著,主要分布在大湾区,AI技术合作网络密度较高,形成广州和深圳为中心的双核结构。3)从广东省21个地市的省内AI发明专利合作总数看,广州合作总量最高,为1 845项,其次为深圳市(974项),这与深圳市AI发明专利总量是广州市的2.32倍形成鲜明对比,说明广州虽然在AI发明专利总量较大程度落后于深圳,但在城市间合作上却超过深圳,表明广州AI技术在广东省的合作带动作用更强,这与广州是“我国重要的中心城市”这一城市性质高度吻合。
进一步分析广东省AI发明专利合作中的有向网络(图4-b)发现,有向网络的空间分布特征与无向网络大体一致,即高强度合作关系主要集中在大湾区地区,尤其是广州和深圳2个城市表现出明显的高辐射性和主导性。首先,广州辐射佛山的AI发明专利强度最大,辐射值为257,其次是广州辐射东莞(209)、深圳辐射东莞(206)、深圳辐射广州(190)和广州辐射深圳(173),其他城市间的技术辐射强度较低。从城市AI发明专利的对外辐射强度看,广州具有最强的辐射作用,辐射强度为1 322次,其次是深圳市,619,其余城市对外辐射强度较低,表现出明显的“双核辐射”的空间格局。而佛山与东莞在有向网络中表现出较强的主动合作能力,被辐射强度仅次于广州。
进一步计算广东省各城市AI发明专利无向合作网络度中心性,结果(图5)表明,广东省AI发明专利合作网络呈现显著的“核心―边缘”结构特征,城市间在合作网络中的地位差异明显。广州度中心性最高,显示其在省内合作网络中处于绝对核心地位,具有强烈的辐射和带动效应;深圳和佛山紧随其后,同样保持较高的合作联系数量,共同构成网络的第一层级。东莞、珠海、江门、中山等珠三角城市的度中心性也处于较高水平,说明这些城市在合作网络中不仅承担重要的节点作用,还在一定程度上推动区域合作的扩散,构成网络的第二层级。相比之下,粤东西北地区如清远、河源、韶关、梅州、云浮等城市的度中心性明显偏低,处于网络边缘,合作联系有限,更多依赖核心城市实现嵌入。
图5 广东省AI发明专利合作网络度中心性

Fig.5 Degree centrality of the AI patent cooperation network in Guangdong Province

2.3 AI发明专利主题内容及其演化特征

通过BERTopic主题建模方法对广东省AI发明专利摘要进行语义聚类与关键词提取,凝练出广东省AI发明专利技术的五大核心主题,分别是数据与图像处理(T1)、机器人与自动化装置(T2)、智能交通与故障检测(T3)、智能家居与环境控制(T4)和生物模拟与图像分析(T5)。进一步绘制各主题词汇权重(图6)。数据与图像处理是AI发明专利应用的基础领域,主题聚焦于图像处理和数据管理,反映与用户交互的需求,关键词“图像”(0.036)和“信息”(0.032)权重最高,表明该主题涉及图像识别和大数据分析技术。机器人与自动化装置主题中“机器人”(0.100)是最重要的关键词,表明智能清扫机器人在该主题中占据主导地位。智能交通与故障检测主题关注车辆检测和故障识别技术,“车辆”(0.12)和“故障”(0.09)的高权重反映这一主题的核心是自动驾驶技术中的障碍物检测和故障诊断。智能家居与环境控制主题中“空调”以0.07的权重突出显示,结合“智能”和“温度”等词,说明智能化温控系统是该主题的主要内容。生物模拟与图像分析主题主要涉及生物体的图像分析和模拟技术,用于生态监测或农业领域。
图6 广东省AI发明专利技术的BERTopic主题关键词权重

Fig.6 Keyword weights of AI patent technology topics in Guangdong Province based on BERTopic

对广东省5个主要AI发明专利主题的关键词在2001—2021不同年份出现的频率进行统计,由图7可知:1)5个主题关键词的频率均经历了低水平缓慢增长、快速增长和波动下降3个发展阶段,这种发展趋势与广东省AI发明专利数量发展的整体趋势吻合,但不同主题发展阶段的时间略有差异。2)数据与图像处理(T1)是广东省AI技术出现频率最高的主题,2013年进入快速增长阶段,2019年频率峰值达到12 634次,反映广东省数据和图像处理技术在过去10年的爆发性发展。3)机器人与自动化装置(T2)、智能交通与故障检测(T3)和智能家居与环境控制(T4)从2015年开始进入快速增长阶段,反映自动化和智能技术的逐渐普及。4)生物模拟与图像分析(T5)虽然有所增长,但相比其他主题的讨论和应用的增长幅度较小。
图7 2001—2021年广东省AI发明专利BERTopic主题词频率演化

Fig.7 Evolution of BERTopic-derived key topics in AI invention patents in Guangdong Province during 2001-2021

综合考虑广东省AI发明专利的总量以及在全省合作网络中的地位,选取AI发明专利授权总量最高(见图3)和度中心性最高(见图5)的5个城市(深圳、广州、东莞、珠海和佛山),分析其AI技术关键主题,并分别凝练出其AI发明专利主题并绘制词汇权重(图8~12)。
图8 深圳市AI发明专利BERTopic主题词汇权重

Fig.8 Weights of BERTopic-derived key topics of AI invention patents in Shenzhen

图9 广州市AI发明专利BERTopic主题词汇权重

Fig.9 Weights of BERTopic-derived key topics of AI invention patents in Guangzhou

图10 珠海市AI发明专利BERTopic主题词汇权重

Fig.10 Weights of BERTopic-derived key topics of AI invention patents in Zhuhai

图11 东莞市AI发明专利BERTopic主题词汇权重

Fig.11 Weights of BERTopic-derived key topics of AI invention patents in Dongguan

图12 佛山市AI发明专利BERTopic主题词汇权重

Fig.12 Weights of BERTopic-derived key topics of AI invention patents in Foshan

深圳AI技术5大主题(图8)分别是图像与数据处理(T1)、机器人与机械系统(T2)、气象与灾害管理(T3)、存储设备与硬件技术(T4)和光学与立体视觉(T5)。其中,图像与数据处理是深圳AI发明专利的核心主题,这与深圳在人工智能算法研发、电子信息产业以及数字经济方面形成的综合优势密切相关。深圳的代表性企业如腾讯和华为等,均在计算机视觉、图像识别与数据处理等领域具有较为深厚的技术积累。机器人与机械系统是深圳AI发明专利的第二大主题,反映深圳在机器人制造和智能制造产业方面的长期布局。优必选、越疆科技等企业在服务机器人和工业机器人领域具有代表性,持续推动相关技术的研发与应用。第三大主题为气象与灾害管理,表明AI技术在深圳公共管理和城市治理领域的应用逐步显现,尤其在降雨监测和灾害预警等方面发挥重要作用,这与深圳推进智慧城市建设和城市安全管理实践高度契合。存储设备与硬件技术作为第四大主题,反映深圳在信息存储和电子硬件领域所具备的坚实产业基础。第五大主题为光学与立体视觉,深圳拥有舜宇光学、大疆创新等企业,在机器视觉、三维感知和智能影像等方面具有显著技术优势。
广州AI发明专利5大主题(图9)分别是图像与数据处理(T1)、车辆与交通管理(T2)、植物与害虫检测(T3)、电梯与乘客管理(T4)和洗车与试衣服务(T5)。图像与数据处理作为AI技术应用的基础领域,在广州AI主题中仍占有最高份额,这与广州的大数据中心以及智慧城市项目需处理大量图像和信息密切相关。车辆与交通管理主题中“车辆”占有最高的权重,这与广州全力打造具有国际竞争力的“智车之城”密切相关。植物与害虫检测主题表明AI在农业领域的应用开始逐渐显现,特别是在害虫检测和作物监测方面。电梯与乘客管理主题表明广州是电梯制造和研发的重要基地,其中广日电梯公司、日立电梯等企业均入选广州AI企业名单。洗车与试衣服务主题表明,AI技术在零售业和服务业中的应用正逐渐增加,特别是在智能试衣和无人洗车等场景。
珠海的AI发明专利5大主题分别是图像与数据处理(T1)、智能机器人与区域管理(T2)、智能空调与用户体验(T3)、智能洗衣与家具设备(T4)和无人船舶与海洋技术(T5)(图10)。图像与数据处理作为AI技术应用的基础领域在珠海也占据最高权重,为珠海科技产业集聚以及智慧城市建设等提供技术支撑。智能机器人与区域管理主题中,机器人以及扫地机器人均占有较高权重,表明智能机器人技术及其在家用领域中的应用广泛,此外,T3和T4领域均与智能家电密切相关(空调、洗衣等),智能家电产业是珠海的三大优势产业之一,拥有格力电器等科技研发能力突出的龙头企业。无人船舶与海洋技术主题中“船只”关键词占有较高的权重,这与珠海发展无人船艇,尤其是云洲智能是中国无人船领域的开拓者密切相关。
东莞AI发明专利5大主题分别是用户界面与智能终端(T1)、机器人与自动化设备(T2)、环境治理与废物管理(T3)、数据安全与隐私保护(T4)和生物识别与身份验证(T5)(图11)。第一大主题是用户界面与智能终端,这与东莞在消费电子和智能终端制造领域形成的产业基础密切相关。vivo、OPPO等企业在东莞及周边布局的研发与制造体系,使AI技术能在人机交互、界面优化和用户行为识别等环节中应用,并支撑相关发明专利的持续产出。第二大主题为机器人与自动化设备。作为全国重要的制造业基地,东莞在工业机器人和自动化装备领域具有显著的产业集聚优势,拓斯达、哈工大机器人(东莞基地)等企业和平台推动AI技术在生产线自动化和制造流程优化中的广泛应用。环境治理与废物管理是第三大主题,该主题的形成与东莞推进“无废城市”建设密切相关。通过引入AI识别、智能预警分析和大数据技术,东莞实现了对固体废物分类、运输与处理环节的智能化监管,反映AI技术在城市环境治理领域的应用不断深化。
佛山AI发明专利5大主题分别为数据管理与用户界面(T1)、机器人与工业自动化(T2)、智能空调与温控系统(T3)、智能厨房与食材管理(T4)和智能生活设备(T5)(图12)。数据管理与用户界面主题中“图像”“信息”“数据”等关键词权重较大,表明图像与数据处理作为AI技术应用的基础领域,在佛山AI主题中占有较高份额,是其他制造企业提供智能化操作管理的基础。机器人与工业自动化中“机器人”权重较高,说明佛山制造业升级过程中智能装备已成为支柱产业,并且智能装备充分应用到家电和家具制造领域。剩余3个AI技术主题均与智能家居密切相关,包括空调、冰箱、厨房家电、热水器、马桶、饮水机等家居制造,佛山智能家居产业集群的细分行业广而全,智能家电、陶瓷卫浴、家具制造在全国实力领先,并积极推动智能家居产业数字化、智能化、智慧化发展。

3 结论

3.1 结论

本文首次将BERT预训练语言模型引入到AI发明专利识别中,突破了传统依赖关键词和分类号的测度方法,构建了基于语义理解的AI发明专利识别框架。该方法能识别出未明确提及AI术语但技术实质涉及AI的发明专利内容,大幅提升了识别的准确性和覆盖范围。基于该框架,本文以广东省2001—2021年约120万条授权发明专利摘要为研究对象,最终识别出约20万条AI相关专利文本,并系统分析了其空间分布与演化特征。结果表明:1)发展趋势方面,广东省AI发明专利数量在2001—2021年经历了缓慢增长与快速扩张2个阶段,AI专利占比持续上升,凸显AI技术在区域创新体系中的战略地位不断增强。2)空间格局方面,AI发明专利高度集中于大湾区,深圳与广州合计占全省总量的75.1%,呈现明显的极化现象;珠海与东莞虽数量不高,但在专利占比上表现突出,显示较强的发展潜力。同时,AI合作网络呈现显著的“核心―边缘”结构,以广州和深圳为双核心,珠三角城市之间联系紧密,而省内外城市的合作联系存在明显差异。3)技术主题方面,结合BERTopic主题建模,提炼出广东省AI发明专利的五大技术主题:数据与图像处理、机器人与自动化装置、智能交通与故障检测、智能家居与环境控制、生物模拟与图像分析。其中,图像处理技术自2013年起快速增长,成为最活跃的主题;机器人与智能交通在近年加速扩张,推动AI应用的多元化发展。此外,不同城市在AI专利布局上也展现出差异化优势:深圳在图像与数据处理及机器人方向上保持领先;广州在智能交通与城市服务领域形成特色;珠海依托家电制造与海洋科技,探索“双轮驱动”模式;东莞侧重智能制造与环境治理应用;佛山聚焦智能家居与工业自动化的融合。
本文在方法论层面提出了一种基于语义识别的AI技术测度新路径,将AI作为研究工具有效拓展了专利文本识别的边界;在实证层面系统揭示了区域AI技术的空间分布格局与演化特征,从而深化了对AI技术在区域创新体系中作用机制的理解。

3.2 政策启示

基于对广东省AI技术发展态势的分析,提出政策建议。1)统筹推动AI技术的快速发展与区域协调。目前,广东省AI技术虽发展迅速,但高度集中于深圳和广州两大核心城市,区域发展呈极化趋势。为避免创新资源过度集中导致区域不平衡,建议省级政府加大对广深以外潜力城市的政策扶持与资源引导,依托本地产业基础打造具有特色的AI应用场景。在此过程中,建议探索“飞地经济”模式。通过正向飞地,将广深等核心区的科研院所、企业实验室或创新平台外迁至粤东西北边缘地区,实现知识与技术的外溢;同时,培育反向飞地,由边缘地区依托农业、绿色能源、文旅等特色产业场景,主动承接和转化核心区的前沿AI成果,并通过产业链反哺核心区,形成“核心―边缘”双向联动的良性循环。2)聚焦优势方向的同时兼顾多元技术路径。图像与数据处理作为广东省当前AI技术最活跃的领域,应持续加大在该方向上的科研投入和产业支持力度。同时,需关注机器人、智能交通、智能家居、生物图像分析等新兴应用领域的潜力,推动技术多元化发展,构建更具前瞻性和韧性的AI技术生态体系。3)不同城市AI发展方向各具特色,政策制定应因地制宜、精准施策。深圳应继续巩固图像处理、数据处理与机器人技术优势,广州应聚焦智能交通与城市服务,珠海可依托家电与海洋技术发展双轮驱动的AI产业,东莞应强化AI在智能制造与环境治理中的应用,佛山则应推动智能家居与工业自动化深度融合。通过打造差异化、特色化的区域AI发展路径,有助于提升全省AI创新体系的协同与效率。

3.3 不足与展望

本研究虽在方法与数据上进行探索性尝试,但仍存在一定局限:1)主要基于BERT模型识别的广东省AI专利数据开展时空演化特征分析,尚未揭示时空演变背后的机制。未来可进一步探讨驱动广东省AI技术时空演变的制度环境、创新资源、产业结构等内在机制。2)尽管本文引入BERT语言模型在识别精度与语义理解方面取得良好效果,但该方法仍存在领域适应性和训练样本依赖的问题。为进一步提升模型的准确性与可扩展性,未来可引入更多领域专用语料与高质量标注样本,以提升模型在不同语境下的泛化能力。3)除BERT外,未来还可引入如百度ERNIE、清华ChatGLM、阿里通义千问、腾讯混元等性能更优或更适应中文专利语境的大语言模型,开展模型对比实验,探索不同模型在AI技术识别中的优势与局限,进一步丰富和优化技术识别方法体系。

陈奕嘉:负责选题确定、研究框架设计、数据处理与论文撰写与修改;

谭俊涛:负责数据分析与论文撰写与修改;

杨瑞霖:负责论文修改与润色。

Broekel T. 2025. Feeling the Heartbeat of Regions: Local News and Economic Sentiments. Journal of Economic Geography, 25(6): 937-976.

Buarque B S, Davies R B, Hynes R M, and Kogler D F. 2020. OK Computer: The Creation and Integration of AI in Europe. Cambridge Journal of Regions, Economy and Society, 13(1): 175-192.

陈鹏鑫,何金廖,曾刚,李炜,杨阳. 2023. 全球城市顶尖人才流动网络的空间格局与结构特征——基于AI顶尖人才成长流动轨迹数据. 地理科学,43(12):2069-2079.

Chen Pengxin, He Jinliao, Zeng Gang, Li Wei, and Yang Yang. 2023. Spatial Patterns and Structural Characteristics of the Global Intercity Elite Mobility Network: Based on the Data of AI Elite Growth Mobility Trajectories. Scientia Geographica Sinica, 43(12): 2069-2079.

Chen Y and Wu K. 2025. Integrating Artificial Intelligence into Regional Technological Domains: The Role of Intra-and Extra-Regional AI Relatedness. Cambridge Journal of Regions, Economy and Society, 18(1): 111-130.

Cicerone G, Faggian A, Montresor S, and Rentocchini F. 2023. Regional Artificial Intelligence and the Geography of Environmental Technologies: Does Local AI Knowledge Help Regional Green-Tech Specialization? Regional Studies, 57(2): 330-343.

Devlin J, Chang M W, Lee K, and Toutanova K. 2019. BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT, 1: 4171-4186.

Doloreux D and Turkina E. 2021. New Path Creation in the Artificial Intelligence Industry: Regional Preconditions, New Actors and Their Collective Actions, and Policies. Regional Studies, 55(10/11): 1751-1763.

冯瑜满,马丽,金凤君. 2025. 中国人工智能创新合作网络的时空格局及其影响因素分析. 地理科学,45(1):130-140.

Feng Yuman, Ma Li, and Jin Fengjun. 2025. Spatial-Temporal Evolution and Influencing Factors of Artificial Intelligence Innovation Collaboration Network in China. Geographical Science, 45(1): 130-140.

国务院. 2025. 国务院关于深入实施“人工智能+”行动的意见(国发〔2025〕11号). (2025-08-21)[2025-08-25]. https://www.gov.cn/zhengce/zhengceku/202508/content_7037862.htm.

The State Council. 2025. Opinions of the State Council on Deepening the Implementation of the “Artificial Intelligence Plus” Initiative (Guo Fa [2025] No.11). (2025-08-21) [2025-08-25] https://www.gov.cn/zhengce/zhengceku/202508/content_7037862.htm.

Grootendorst M. 2022. BERTopic: Neural Topic Modeling with a Class-Based TF-IDF Procedure. (2022-03-11) [2025-08-25]. https://arxiv.org/abs/2203.05794.

Kriesch L and Losacker S. 2024. A Global Patent Dataset of Bioeconomy-Related Inventions. Scientific Data, 11(1): 1308.

邝劲松,杨坤宇,石校菲,姚一凡. 2024. 省域人工智能发展对绿色全要素生产率的空间效应. 经济地理,44(7):144-154.

Kuang Jinsong, Yang Kunyu, Shi Xiaofei, and Yao Yifan. 2024 Spatial Effect of Provincial Artificial Intelligence Development on Green Total Factor Productivity. Economic Geography, 44(7): 144-154.

李宇航,徐志伟,刘燕华,张玉虎,孙福宝. 2024. 人工智能时代的地理科学前沿问题探析. 地理学报,79(10):2409-2424.

Li Yuhang, Xu Zhiwei, Liu Yanhua, Zhang Yuhu, and Sun Fubao. 2024. AI for Geographical Sciences: The Frontiers. Acta Geographica Sinica, 79(10): 2409-2424.

刘亮,阮俊杰,庄海涛. 2024. 数智化赋能长三角城市群绿色发展的效应研究. 经济地理,44(9):123-132.

Liu Liang, Ruan Junjie, and Zhuang Haitao. 2024. Impact of Digital Intelligence on Green Development in the Yangtze River Delta Urban Agglomeration. Economic Geography, 44(9): 123-132.

刘青,肖柏高. 2023. 劳动力成本与劳动节约型技术创新——来自AI语言模型和专利文本的证据. 经济研究,58(2):74-90.

Liu Qing and Xiao Baigao. 2023. Labor Costs and Labor-Saving Innovation: Evidence from AI Language Model and Patent Texts. Economic Research Journal, 58(2): 74-90.

Rogers A, Kovaleva O, and Rumshisky A. 2020. A Primer in BERTology: What We Know about how BERT Works. Transactions of the Association for Computational Linguistics (TACL), 8: 842-866.

Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A, and Polosukhin I. 2017. Attention is All You Need. In: Lawrence N and Garnett R. 31st Conference on Neural Information Processing Systems(NIPS 2017). Long Beach: NIPS.

Xiao J and Boschma R. 2023. The Emergence of Artificial Intelligence in European Regions: The Role of a Local Ict Base. The Annals of Regional Science, 71(3): 747-773.

杨永春,菅煜婷. 2024. 人工智能时代城市地理学发展的变革与挑战. 地理学报,79(10):2425-2441.

Yang Yongchun and Jian Yuting. 2024. The Transformation and Challenges of Urban Geography Development in the Era of Artificial Intelligence. Acta Geographica Sinica, 79(10): 2425-2441.

张平,范文慧,贾婧,刘义. 2024. 基于改进 DBSCAN 空间聚类算法的北京市人工智能产业集聚格局研究. 地理科学,44(2):238-247.

Zhang Ping, Fan Wenhui, Jia Jing, and Liu Yi. 2024. Artificial Intelligence Industrial Agglomerations in Beijing: An Spatial Pattern Study Based on Improved Dbscan Algorithm. Scientia Geographica Sinica, 44(2): 238-247.

邹伟勇,熊云军. 2022. 中国城市人工智能发展的时空演化特征及其影响因素. 地理科学,42(7):1207-1217.

Zou Weiyong and Xiong Yunjun. 2022. Spatio-Temproral Evolution Characteristics of AI Development in Chinese Cities and Its Influencing Factors. Scientia Geographica Sinica, 42(7): 1207-1217.

Outlines

/