米乐M6官网登录正版下载·LAF 想知道公园游客关心什么哪种分析方法更合适? 定制案例
49
注:本文为删减版,不可直接引用。原中英文全文刊发于《景观设计学》(Landscape Architecture Frontiers)2023年第5期。 互联网科技和媒体的蓬勃发展产生了大量社交媒体数据,本研究尝试开展社交媒体文本数据分析方法的对比研究,并揭示其在公园感知研究中的优缺点和适用性。研究选择在相关领域广泛应用的词典模型和LDA模型,以大众点评网站上北京10座城市公园的点评文本为研究数据,分别从单个公园和公园整体使用感知两个层面进行文本分析,并对比分析感知主题的分类结果。结果表明:词典模型更有利于在公园间进行横向对比分析;LDA模型则可以直观显示公园特色和游客感知偏好;综合运用两种模型可优化公园感知评估。两种方法揭示了北京城市公园游客对公园的关注主要集中于社交活动的需求、自然景观带来的视觉审美需求,以及交通设施状况和城市公园消费情况。本研究既可为社交媒体文本分析方法的选择和使用提供优化建议,又可为公园建设与管理改进提供依据与指导。 随着互联网科技的高速发展,海量网络媒体信息为社会感知的研究提供了数据基础。这类研究早期多集中在通过签到数据识别到访率和动机偏好分析,以及结合照片图像内容及其地理位置进行的感知情绪分析。近年来,通过文本数据挖掘进行感知分析的研究也开始起步并日渐增多。通过文本数据进行公园感知研究正逐渐受到学者们的关注。目前已经可以通过建立文本分析模型来挖掘文本所呈现的内在规律及主题,主题模型的运用开始成为感知分析和满意度评价的基础。已有研究在感知分析时,通常单独采用其中一种模型进行文本数据处理,鲜少探讨不同模型之间的优劣及专业适用性。 本研究尝试开展社交媒体文本数据分析方法的对比研究,并揭示其在公园感知研究中的适用性。由于基于词典规则的分类分析模型(下文简称“词典模型”)和LDA模型在风景名胜区和城市公园感知研究中应用广泛,本研究针对二者展开对比分析。本研究聚焦于以下问题:在对基于公园感知的社交媒体文本进行分析时,词典模型和LDA模型的感知研究过程与分析结果存在怎样的差异?两种模型的优劣是什么?此基础上,研究团队进一步探究如何利用两种模型的优势为城市公园规划提供指导,并总结文本分析方法在公园感知研究中的适用价值。 北京市市域拥有各类公园1050个,公园绿地面积累计达357.2km2。本研究选择大众点评网作为文本数据来源,使用Python软件中的Request模块获取北京市公园目录下自2006年4月至2020年9月的所有文字点评数据和点评者信息,选取点评数量排名前10位的城市公园作为研究对象(表1)。 为保证模型分析的准确性,研究对数据进行了预处理,仅保留字符数大于50的文本数据。筛选后评价数量最少的公园为北京园博园(6531条),以此为标准使用SPSS分别对其他各个公园的评价数据进行完全随机抽样,最终获得65310条点评文本数据。研究选用Python语言工具jieba分词对数据进行分词。清洗文本数据进并进行同义词替换。根据实际使用情况,人工筛查及调整分词和同义词替换结果,还原不恰当的同义词替换内容。 词典模型采用王志芳等人于2021年提出的基于景观服务的城市公园感知主题分类评估模型,该模型经过词典有效性检验,整体性能测试结果优良。在本研究中,运用Python对预处理后的数据进行结构化处理并提取高频词;之后进行人工分类,构建中文景观服务感知词典;继而利用Word2vec和人工添加的方式扩建词典内容,并划分到不同的感知主题类别中。根据已有的文献研究,共划分出9类含义不同的公园景观服务感知主题(表2)。 将获取的公园感知评价文本数据与词典进行匹配,以此识别评价数据中的用词,进而提取出单条评价中所涉及的感知主题计算各类主题的感知频率。将涉及某项感知主题的评论数量与总评论数量的比值作为相应景观服务主题在该公园的感知频率。 LDA是一种通过计算机来自动分析文本的语言处理模型,能够快速从非结构化文本(即文档)中提炼出主题。LDA模型可以计算“文档-主题”和“主题-词语”两类概率分布,从而实现对文档主题和对应词语(关键词)的分类。 本研究使用Python软件的gensim工具包调用LDA模型,实现文本数据主题分析。本研究中的主题数量主要通过计算主题一致性得分来确定,最后结合人工对一致性得分较高的主题进行筛选,确定合适的主题数量以获得理想的模型运算结果。获得结果后,对于每个主题的实际权重进行计算。针对每个公园的结果,分别进行主题命名,同时去除权重较低且感知内容相关性较弱的主题,即“噪声”主题。 对两种模型得到的不同感知主题的分布进行相关性分析。不同感知主题在每条评价文本中的分布情况为二分类变量,结果为“是”/“否”(分别记为“1”/“0”)两项,因此在SPSS软件中计算Phi系数,进行相关性检验。 本研究使用Python对评价文本进行词频分析,通过词云图表达不同文本数据中被使用者提及频次较高的词语内容,以获取各公园的感知主题内容。 本研究基于北京市10座城市公园的大众点评评价文本数据,利用两种模型分别从单个公园和公园整体使用感知两个层面进行文本分析,并对比分析感知主题的分类结果。 词典模型分类统计结果显示,游客对各公园不同主题的感知频率存在明显差异:圆明园遗址公园和奥林匹克森林公园的感知总频率最高,北京世界公园与朝阳公园的感知总频率相对较低;奥林匹克森林公园不同主题间感知频率差异最大。此外,在不同公园中,娱乐活动和美学欣赏均表现出较高的游客感知频率,教育价值和宗教信仰的感知频率普遍较低。圆明园遗址公园在历史文化方面的感知频率、八大处公园在宗教信仰方面的感知频率、景山公园的美学欣赏感知频率、朝阳公园的社会交往感知频率明显高于其他公园。除此之外,玉渊潭公园和八大处公园的教育价值感知关注度相较于其他公园有所不足。 由LDA模型下的感知分析结果可知,北京市10座城市公园的感知类型差异明显,社交媒体评价突出体现了公园自身的景观特色和游客感知偏好。通过表3可以看出,不同公园游客感知的主题数量普遍被分为8或9项,其中圆明园遗址公园、玉渊潭公园和奥林匹克森林公园的感知主题较多,北京世界公园最少。在感知内容上公园间存在差异,但部分主题在多数公园中均有体现。除此之外,部分感知主题因公园自身的特色表现出不同。同时,节庆活动在不同公园中也会产生独特的游客感知。 将10座公园的所有评论文本数据进行LDA模型分析,结果显示,感知主题可划分为10项,其中交通门票、春季景观、记忆感知和社交活动的感知频率高于其他主题,登山活动、人文历史、集会表演、秋季景观、宗教文化、特色建筑的感知频率相对较低。由此可见,北京城市公园游客对公园的关注主要集中于社交活动的需求、自然景观带来的视觉审美需求,以及交通设施状况和城市公园消费情况。 综合分析结果可以看出北京城市公园游客主要关注社交游憩需求和自然景观带来的视觉审美需求是否得到满足,同时对交通设施状况和城市公园消费情况较为敏感。基于词典模型的9项感知主题和LDA模型的10项感知主题在评价中的分布具有一定的相关性,主题分布相关性较强的有:春季景观与环境改善、生物多样性、娱乐活动和美学欣赏;宗教文化与历史文化、宗教信仰;登山活动与宗教信仰;秋季景观与美学欣赏;社交活动与娱乐活动、社会交往;记忆感知与教育价值;人文历史与历史文化、美学欣赏和教育价值。除此之外,词典模型下的身心修复主题,以及LDA模型下的交通门票、特色建筑及集会表演主题与其他感知主题的分布相关性都较弱。 两种模型感知内容分类的结果均表现出对自然景观、人文历史景观和娱乐活动的关注。此外,LDA模型的分类结果更侧重于对不同自然景观和游览活动的综合感知;同时,将娱乐活动划分为更具体的主题。相比于词典模型清晰的感知主题划分,LDA模型的分析结果界限相对模糊。 两种模型下的游客感知主题类型在不同公园的表现存在明显差异。在单个公园的分析中所获取的感知主题类型存在明显差异。LDA模型提炼出的感知主题在不同公园中体现的内容各有不同,例如祭拜活动和登山活动等主题仅在个别公园中有所呈现;几乎未能呈现低频感知的内容;主题更加突出公园自身的特色,类型更加细分,且存在部分词典模型未涉及的感知内容。相比之下,词典模型则能够捕捉到所有设定的感知内容。感知主题与涵盖内容受现有词典的影响,分类分析结果更加注重游客对人工选定的不同景观服务内容的感知,识别到的对周边环境和景观要素的感知较少。 通过对比分析可以看出,基于词典模型和LDA模型的城市公园感知分析在主题类型划分上具有显著差异。可从公园感知类型划分、感知内容识别及模型适用范围梳理两种方法的具体优缺点(表4)。 在模型优化方面,可以基于LDA分析结果对词典模型的词典内容进行扩充、完善。在模型专业适用性方面,可以结合两者特点和优势来判断结合应用的途径。进行区域尺度的公园感知分析时,可先利用词典模型进行现状分析,为公园的建设、管理和改进提供依据;再选定需要深入挖掘的感知类型,通过LDA模型进行具体的文本分析,细化公园感知内容。对于单个公园进行感知分析时,可以基于LDA模型的结果确定公园的特色和游客的关注内容,再据此优化词典模型并展开进一步分析,以期更加全面地发现问题。 本研究选择了两种最常用的文本主题分析模型词典模型与LDA模型,对相同的研究对象进行分析,探讨两种模型的应用在城市公园感知研究中的差异,以明确其优缺点和优化途径。研究结果不仅对城市公园的建设和管理具有指导性价值,也有利于推进通过文本分析进行社会感知的相关研究发展。 本研究仍存在一定的局限性。在数据来源方面,来自大众点评网站的评价文本缺乏使用者的个人信息,无法进行有效的用户画像分析,分析结果难以全面体现城市公园游客感知情况。此外,LDA模型作为传统的无监督分类模型,无法把控分类结果。针对LDA模型问题目前已有改进的涉及半监督和有监督的机器学习主题分类模型,有待进一步探究。最后,除了本文所探究的两种模型外,基于大数据的文本分类模型还有多种,不同的模型算法具有各自的优势和不。 米乐M6官网登录正版下载 上一篇:中国银行申请数据分析方法专利可以提高数据库中分 下一篇:全志科技2023年年度董事会经营评述 |