基于在线文本情感分析的“唐文化”目的地形象挖掘研究

张成元, 刘云珂, 赵炳清, 柴建, 姜福鑫

计量经济学报 ›› 2023, Vol. 3 ›› Issue (2) : 387-407.

PDF(5527 KB)
PDF(5527 KB)
计量经济学报 ›› 2023, Vol. 3 ›› Issue (2) : 387-407. DOI: 10.12012/CJoE2022-0100
论文

基于在线文本情感分析的“唐文化”目的地形象挖掘研究

    张成元1(), 刘云珂1(), 赵炳清1(), 柴建1,*(), 姜福鑫2,*()
作者信息 +

Research on Destination Image Mining of "Tang Culture" Based on Online Text Sentiment Analysis

    Chengyuan ZHANG1(), Yunke LIU1(), Bingqing ZHAO1(), Jian CHAI1,*(), Fuxin JIANG2,*()
Author information +
文章历史 +

摘要

如何挖掘历史文化资源促进精准营销以高效吸引游客, 是我国诸多文化旅游资源富集的景区亟需解决的问题.本文以西安"唐文化"旅游目的地形象挖掘为研究对象, 通过15, 683条在线文本评论的高频词提取、语义网络分析、主题词挖掘和情感分析, 识别出消费者"唐文化"目的地形象的关注点.研究结果表明, 首先, 前100个高频词可分为遗产资源、旅游活动和游客情绪三类; 其次, 游客较为关注西安著名景区、建筑、文化及"大唐盛世"文化氛围; 再次, 通过文本评论情感分析获取负面情感高频词, 并挖掘负面评论出现的原因; 最后, 通过隐含狄利克雷分布(latent Dirichlet allocation, LDA)模型确定评论主题, 同时, 利用K近邻算法验证LDA主题分类.本文的研究结果可为西安市旅游目的地形象改进和潜在"唐文化"旅游创意策划提供有力支撑, 同时也可为其他历史文化名城提高旅游吸引力提供借鉴.

Abstract

How to excavate historical and cultural resources to promote precision marketing to attract tourists effciently is an urgent problem that needs to be solved in many scenic spots with rich cultural tourism resources in China. This paper takes Xi'an "Tang Culture" tourist destination image mining as the research target, and identifies consumers' "Tang Culture" destination image through high-frequency word extraction, semantic network, subject word mining and sentiment analysis of 15, 683 online text reviews. The results reveal that, first, the top 100 high-frequency words can be divided into three categories: Heritage resources, tourism activities and tourists' emotions; second, tourists pay more attention to Xi'an's famous scenic spots, architecture, culture and the cultural atmosphere of "the prosperous Tang Dynasty"; third, obtain negative sentiment high-frequency words through text review sentiment analysis, and excavate the reasons for negative reviews; finally, the online review topics are determined through the latent Dirichlet allocation (LDA) model, at the same time, the K-classification algorithm is introduced to verify the LDA theme classification. The research results of this paper can provide strong support for the image improvement of Xi'an tourist destination and the potential "Tang Culture" tourism creative planning, and provide reference for other famous historical and cultural cities to improve their tourist attraction.

关键词

文本挖掘 / 情感分析 / 连续词袋(CBOW)模型 / 隐含狄利克雷分布(LDA)模型

Key words

text mining / sentiment analysis / continuous bag-of-word model (CBOW) model / latent Dirichlet allocation (LDA) model

引用本文

导出引用
张成元 , 刘云珂 , 赵炳清 , 柴建 , 姜福鑫. 基于在线文本情感分析的“唐文化”目的地形象挖掘研究. 计量经济学报, 2023, 3(2): 387-407 https://doi.org/10.12012/CJoE2022-0100
Chengyuan ZHANG , Yunke LIU , Bingqing ZHAO , Jian CHAI , Fuxin JIANG. Research on Destination Image Mining of "Tang Culture" Based on Online Text Sentiment Analysis. China Journal of Econometrics, 2023, 3(2): 387-407 https://doi.org/10.12012/CJoE2022-0100

1 引言

旅游目的地形象是游客对旅游目的地的整体感知, 是游客对旅游目的地的看法、印象及情感表达, 其对旅游目的地的推广和营销具有十分重要的意义和价值(Crompton (1979), Pan et al. (2021)). 具体地, 旅游形象通过游客形成的"共识", 可影响目的地旅游消费需求的维持、增加及创造, 进而深刻影响目的地的吸引力及竞争力(Xiao et al. (2022)). 而在数字经济时代, 蕴含大量游客看法的在线评论则是诸多影响旅游目的地形象感知的重要信息源之一, 其在了解游客满意度和需求方面发挥着越来越重要的作用(Sun et al. (2021)). 因此, 旅游目的地景区通过获取游客对旅行经历的感知和评论, 挖掘并分析游客的关注点, 同时开发潜在的旅游目的地吸引点, 进而管理、开发、设计和重新设计旅游目的地形象, 以便使游客的体验、产品和服务匹配(Giglio et al. (2019), Pantano et al. (2017)).
值得注意的是, 随着生活水平不断攀升和民族文化自信心的不断提高, 消费者对具有丰富文化旅游资源的目的地形象的城市较为追捧(Beerli and Martin (2004)). 由此, 高效挖掘并识别消费者关注的历史文化"标签", 推动文化旅游资源精准匹配大众需求, 是当前大众旅游时代亟待解决的旅游管理与营销问题(Xiao et al. (2022)). 然而, 现有的研究多采取基于深度访谈的扎根理论等定性方法, 此类方法所研究的数据是通过深度访谈获取的较长篇幅且连续的文字资料, 通常忽略了只言片语的碎片化资料的研究, 未能有效挖掘信息化时代在线评论的价值(Fang et al. (2016)).
而在大数据时代, 消费者在互联网平台上留下海量的在线信息为旅游目的地形象研究提供可用选项(Fuchs et al. (2014)). 通过挖掘和分析旅游评论数据以研究旅游领域中目的地形象等问题越来越受到学者们的青睐(Gour et al. (2021), Sun et al. (2021)). 对游客所发布的海量碎片化信息的收集和处理, 可以弥补深度访谈等方法研究游客数据不全面的缺陷(Xiang et al. (2017)). 尤其是在疫情期间, 通过分析游客情感信息和潜在的关注点, 推动文化旅游目的地形象构建以吸引客流量, 不仅能匹配现阶段"被抑制" 的大众旅游需求, 还能进一步挖掘潜在旅游IP, 拉动旅游消费.
国内旅游市场的消费者在美团、携程旅游等OTA平台发表其对旅游目的地的看法和整体形象感知, 进而形成了蕴含消费者情感倾向的文本数据、图片数据及短视频数据(Ma et al. (2018), 刘逸等(2017), Zhang and Huang (2022)). 尤其对旅游目的地管理与营销而言, 游客所发布的海量评论数据可较为客观地反映旅游目的地形象, 如旅游景区特色、存在的问题和游客的反馈与建议(Neidhardt et al. (2017), Yang et al. (2017), Ye et al. (2009)).
西安作为曾经的唐朝故都, 拥有悠久且灿烂地唐朝文化(吴宝清等(2020)), 是国家中心城市和文化资源富集的历史名城. 本研究将关注点深入至西安市特色唐朝文化, 从"唐文化" 目的地形象角度, 融合大数据、情感分析、主题分类等技术, 基于游客OTA在线评论信息, 针对性地挖掘潜在的消费者关注点和情感倾向. 鉴于此, 本文通过Python爬虫获取西安市旅游景区与"唐文化" 相关的评论数据, 首先, 通过高频词和关键词特征分析, 挖掘游客对西安市整体形象感知; 其次, 为了更进一步分析游客的情感感知, 使用ROST CM6对采集到的数据进行语义网络分析和情感分析. 最后, 采用隐含狄利克雷分布(latent Dirichlet allocation, LDA) 模型, 提取评论内容中的深层次语义主题特征, 通过人工标记数据集训练K近邻分类器, 然后对LDA主题模型的有效性进行验证. 从而更加全面地获取西安市"唐文化" 的旅游形象感知. 此外, 以西安市"唐文化" 旅游形象感知为研究对象, 提出的消费者在线信息情感分析框架对于北京、南京、洛阳等此类文化古都的旅游业发展具有重要的借鉴意义.

2 文献综述

本文基于旅游目的地形象分析的研究主旨, 对以往研究方法及在线文本挖掘相关的技术进行文献梳理. 首先, 梳理了国内外对旅游目的地形象的研究方法; 其次, 总结了旅游领域内在线文本挖掘与分析的方法.

2.1 旅游目的地形象的研究方法

旅游目的地形象的研究方法总体上分为定性和定量研究两种(史达等(2022)). 其一, 定性研究方法以采集到游客对旅游目的地的评价和看法为研究数据, 大多以扎根理论为主, 早期也多采取实地访谈资料法或问卷法(Avraham (2016)). 定性的研究方法在反映目的地的整体性和独特性上更加有效, 可以较为清晰地反映旅游目的地的特征形象及游客感知. 如国外学者Andsager and Drzewiecka (2002)使用问卷的方法对频率排序前10的旅游目的地吸引物和人物进行分析. 国内学者高军等(2010)采取扎根理论研究范式, 对在12个入境旅游热点城市收集的623句外国游客所表达的负面评论进行分析. 随着互联网平台的发展, 部分学者将扎根理论与在线文本资料相结合开展研究. 如国内学者徐小波等(2015)采取网络文本分析和访谈的方法对49个"中国优秀旅游城市" 的形象感知进行对比分析. 然而, 大数据时代的发展促使越来越多的学者更倾向于定量分析此类问题, 如Li et al. (2020)利用游客在线发布的海量评论预测旅游需求.
其二, 定量研究方法中, 大多采取因子分析(Mahfouz et al. (2020))、结构方程模型(Sarstedt et al. (2020))、IPA分析(Simpson et al. (2020))等方法探究旅游目的地形象问题. 如San et al. (2008)采取因子分析法探究认知与情感形象在旅游目的地中的本质. Assaker et al. (2011)采取结构方程模型的方法分析了旅游形象对游客重游意愿的影响. Rahman et al. (2020)通过结构分析模型分析了游客感知对清真旅游目的地的影响. Martin (1996)采取IPA分析的方法探究了美国弗吉尼亚的旅游地形象, Cai et al. (2020)采取IPA分析的方法评估COVID-19爆发后游客对日本旅馆的满意度. 上述方法通过选定评价属性, 获取定量评价, 通过数理统计得到旅游地形象的量化数据, 具有可控性、直观性强、便于统计和比较等优点(黄震方和李想(2002)). 此外, 内容分析法(Choi et al. (2007), Kim and Stepchenkova (2015)), 元分析法(Zhang et al. (2014)), 地理信息挖掘框架(Zhang and Dong (2021)) 以及基于用户生成数据(user-generated content, UGC) 的挖掘和图片识别方法(Li et al. (2022)) 也被广泛应用于旅游目的地形象挖掘与分析研究. 尤其是数字经济时代, 消费者产生海量与之相关的数据, 可以天然地捕捉和刻画用户的情感和意见. 鉴于此, 本文采用UGC数据挖掘和分析旅游目的地形象.

2.2 在线文本挖掘与分析方法

大数据时代背景下, 游客在互联网平台上发布的大量评论为研究提供了海量的原始碎片化资料, 而借助于在线文本分析技术, 可以有效发挥定性研究在资料观察和深入分析方面的优势, 同时也可突出机器学习和深度学习算法等定量方法处理文本数据的优势(Zhang and Fesenmaier (2018)). 对于在线文本地处理、挖掘与分析方面, 目前主要有三种方法: 人工编码, ROST语义分析和基于文本的人工智能挖掘算法(史达等(2022), Liu et al. (2019), Li et al. (2021)).
人工编码是指在人为干预下, 用数字或字符代替具体对象的编码过程, 在研究的过程中非常重要(史达等(2022)). 例如, Shafiee et al. (2019)使用开放、轴向和选择性编码来分析定性数据. 但由于网络文本数据量大, 完全采取人工编码的方式工作量大且受到较大的主观因素影响.
相应地, ROST语义分析工具逐渐走向人们的视野中, 在一定程度上避免了研究人员主观因素的影响. 例如, Cong et al. (2014)使用ROST CM6对收集到的数据进行词频分析. 但存在着较为严重的效度问题(Liu et al. (2019)), 在短文本分析中采取ROST方法可能会面临特征稀疏的问题. 且ROST工具进行词频统计常出现专属名词和常用词语词频过高的问题.
文本分析算法具有精准识别关键词的优点(Li et al. (2021)), 可以快速处理大量数据中心的非结构化信息, 挖掘出文本中的实质信息, 对于研究游客感知非常重要. 近年来, 机器学习模型引起了广泛关注. 例如, Fuchs et al. (2014)通过支持向量机(support vector machine, SVM), 朴素贝叶斯(naive Bayes)等机器学习算法将有关瑞典旅游目的地Åre的评分和在线评论归类, 并将其集成在目的地管理信息系统中. Geetha et al. (2017)通过朴素贝叶斯算法将收集到的在线酒店评论数据与情感词典进行匹配, 从而为文本数据确定正向或负向的情感, 以研究印度果阿高档酒店和经济酒店的客户情感与酒店客户评分之间的关系. Giglio et al. (2019)通过机器学习算法对收集到的图像数据进行识别和分类, 区分图像主题, 识别图像特征, 以探究意大利六个城市的旅游吸引力. 然而, 大多数经典的基于机器学习的模型都遵循两步过程: 第一步, 从文本中人工提取特征, 第二步, 将人工提取的特征提供给分类器进行预测. 这使得机器学习模型具有更高的效率和更高的准确性, 但也存在繁琐、无法充分利用大量训练数据等局限(Minaee et al. (2021)).
深度学习算法近年来被广泛应用于文本分析领域, 其在一定程度上克服了机器学习的局限(Minaee et al. (2021)). 深度卷积神经网络被广泛应用于大量旅游非结构化数据地分析处理(Xiao et al. (2020)), 可以从大量的非结构化数据中学习和分析高级的认知信息, 有助于更好地分析旅游图像中的场景并提取有用的视觉信息(Xiao et al. (2022)). Xiao et al. (2020)利用卷积神经网络(convolutional neural networks, CNN) 方法识别江西的海量旅游照片, 揭示图像的时空异质性, 探究旅游目的地形象. Xiao et al. (2022)通过基于深度学习的视觉分析方法, 引入基于CNN的分类模型, 以评估海量旅游照片的相似性和唯一性, 从而探究旅游目的地形象量化分析与差异化营销, 并对中国婺源进行了实证案例研究. 深度学习模型在一定程度上克服了机器学习的局限性, 促进了文本分析新的进步, 但许多模型的可解释性较差. 更好地理解这些模型的理论部分将可以帮助开发针对于各种文本分析场景的更优模型, 这也是未来研究的一大方向(Minaee et al. (2021)).

3 研究方法

3.1 研究框架

互联网背景下, OTA平台蕴含了海量旅游目的地形象的文本评论. 本研究基于美团、携程旅行、同程旅行和去哪儿旅行四个OAT平台的评论数据, 提出了基于在线文本情感分析的西安"唐文化" 旅游目的地形象挖掘研究框架, 如图 1所示.
图1 研究框架

Full size|PPT slide

数据预处理. 通过数据清洗、去停用词及分词处理等步骤进行预处理. 具体地, 通过剔除收集到的评论中不相关的评论(如停用词、高频词和无效评论), 保留有价值的景区评论. 同时, 通过识别用户ID删除短时间内重复的评论, 采用基于Python的Jieba分词工具包对有价值的景区评论进行分词处理, 进而使用Python库scikit-learn来计算景区评论词的TF-IDF值, 最后, 通过连续词袋模型(continuous bags-of-words model, CBOW模型) 实现词向量转化, 并采用Python库Gensim实现.
特征提取. 根据预处理得到的评论词的值, 分别进行词频的统计分析和语义网络分析. 相应地, 利用词频分析对预处理数据进行高频词汇统计与分析, 通过绘制词云图进一步识别"唐文化" 旅游形象热词, 凸显旅游景区给游客留下的整体印象; 语义网络分析是知识表达的一种形式, 本部分通过ROST CM6软件构建语义网络, 从而分析识别评论观点间的联系, 以揭示和反映在线评论数据内容之间的深层次的结构关系.
情感分析. 通过ROST CM6软件对在线评论信息识别情感, 识别出积极情绪评论、中性情绪评论及消极情绪评论, 尤其注重负面情感倾向识别. 此外, 针对性挖掘评论中负面评论词, 分析负面评论前40个高频词, 并基于负面高频词进行遗产资源、旅游活动和游客情绪三方面分类总结与评价, 给出产生负面情绪词汇的可能原因, 以便有效解决消极情绪反馈目的地所存在的问题.
主题挖掘. 通过LDA主题模型以更精准挖掘"唐文化" 评论主题, 再利用K近邻分类器进行主题分类验证. 具体地, 将全体数据集分为大规模无标记的数据集和小规模人工标记的数据集, 通过CBOW模型将全体文本数据转换为向量, 并基于LDA模型得出评论主题, 再将人工标记的数据集按照LDA主题进行人工标注, 并对K近邻分类器模型进行训练和检验, 验证LDA主题模型识别主题的有效性, 如图 2所示.
图2 主题分析与验证流程

Full size|PPT slide

3.2 方法原理

3.2.1 LDA主题建模

隐含狄利克雷分布(latent Dirichlet allocation, LDA) 模型是由Blei et al. (2003)提出的一种文档主题生成模型, 其原理是将文本信息通过概率分布形式构成某类主题的无监督学习技术, 目前主要应用于文本主题挖掘、主题识别及文本分类等文本挖掘领域(Fränti and Sieranoja (2018)). 具体如图 3所示, LDA模型基于文本词袋方法, 让第m条评论生成主题概率分布, 即θmDirichlet(α), 其中θm指第m条评论的主题概率分布, α指每个评论主题对应的多项分布的Dirichlet先验参数; 让第k个主题生成特征词概率分布, 即φkDirichlet(β), 其中φk表示第k个主题下的特征词的概率分布, β指每个主题下特征词对应的多项分布的Dirichlet先验参数; 继而, Zm,nMultinomial(θ)Wm,nMultinomial(φZm,n)分别代表生成的主题和特征词.
图3 LDA主题模型框架

Full size|PPT slide

此外, 在LDA模型中, 主题K的个数是非常重要的输入参数, 其值将直接影响最终的输出结果. 而以往研究表明, 困惑度(Perplexity) 可以用来评估模型的优劣(Blei et al. (2003), Li et al. (2020)), 其计算公式如下:
perplexity(D)=exp{d=1Mlogp(wd)d=1MNd}.
(1)
由此, 本文采用困惑度确定最优主题个数, 困惑度一般会随着主题个数的增多而变小. 但若主题个数过高, LDA模型的计算代价过高(张志飞等(2013)), 同时容易产生模型过度拟合的问题. 因此, 本文在选择主题个数时, 综合考虑困惑度大小和LDA模型的计算代价两个因素, 选择困惑度较小且LDA模型计算代价较小的数值.

3.2.2 CBOW模型

CBOW模型是词向量方法word2vec的一种, 其原理是通过上下文来预测当前词(Mikolov et al. (2013)). 具体地, CBOW模型由输入层、映射层和输出层组成, 是基于哈弗曼树的一种词语嵌入模型, 其以固定窗口中的上下文预测目标关键词. 类似神经网络结构, CBOW模型在输入层输入向量, 映射层中为输入向量的加权和, 输出层所输出的表示在固定长度上下文语义的基础上所预测的中间词在语料库中出现的概率. 因此, CBOW模型的目标函数如下:
P(wt|Context(wt))=P(wt|(wtc,,wt1,wt+1,,wt+c)),
(2)
其中, 中间关键字的固定窗口大小用c表示, 表示固定窗口大小为c, 中间关键字为上下文. 其模型结构如图 4所示.
图4 CBOW模型

Full size|PPT slide

3.2.3 K近邻分类算法

K近邻分类算法是较常用的机器学习算法之一, 其原理是基于距离计算的分类算法. 在训练集中的数据和其标签已知的情况下, 测试集数据通过计算与训练中所有点的距离, 筛选出距离最近的前K个点中出现次数最多的分类, 这个分类则为C. 本次研究中, K近邻分类器采用向量之间距离的余弦相似度作为距离衡量标准, 其计算方法如下:
s=cos(A,B)=AB||A||||B||=i=1nAiBii=1n(Ai)2×i=1n(Bi)2.
(3)

3.3 数据来源及处理

本文的在线文本数据来自于四大OTA旅游网站: 美团、携程旅行、同程旅行和去哪儿旅行. 这四大旅游网站在国内的品牌知名度和认可度较高.本研究选取了西安最为著名、游客评论较多的14个旅游景点为数据爬取对象: 华清池、大唐芙蓉园、大明宫国家遗址公园、永兴坊、秦始皇陵博物院、西安博物院、西安城墙、西安钟楼、华清池、西安秦岭野生动物园、翠华山、白鹿原、诗经里和陕西历史博物馆. 通过搭建Python爬虫框架, 抓取这些景点在四个OTA网站上近10年的文本评论数据, 共计599, 379条. 数据处理方面, 考虑到部分游客存在复制其他游客评论的现象, 本文对相同的评论进行剔除. 同时, 为了得到更加全面的评论, 本文剔除了字数少于15条的评论, 共计整理出309, 236条有效评论, 并调用Python中的Jieba包对收集到的有效评论进行分词处理. 考虑到"一个" "一片"等量词和"还有" "还是"等语气连接词没有实际意义, 因此将这类词汇剔除.
由于本文主要研究的是西安"唐文化" 的旅游城市形象塑造, 因此, 本文提取出各大景区中有关"唐" 的评论. 此外, 考虑到大唐芙蓉园和大唐不夜城两个景区带有"大唐" 两字, 因此, 若评论中除"大唐芙蓉园" "大唐不夜城" 此类包含"唐" 字的景区还有存在"唐" 字相关评论, 则保留, 反之则剔除. 例如, "大唐芙蓉园, 是个现代修建的园子. 下午2点以后还有各式各样的活动. 这个旅游景点人少, 还挺好玩的, 这个是非常可贵的地方!" 中除"大唐芙蓉园" 外没有与唐朝相关的评论, 仅仅是在叙述景区, 并未发表自己对于唐朝相关文化的看法, 故剔除. 另一评论"紫云楼很喜欢, 里面的唐长安城遗址很喜欢, 还和太宗合影! 大唐芙蓉园都是仿唐建筑, 更像景色优美的公园" 中除"大唐芙蓉园" 外, 还有别的与唐朝有关的看法, 故保留. 经处理后, 共得到15, 683条评论.

4 文本挖掘结果

4.1 特征提取

4.1.1 高频词分析

本部分运用词频分析对预处理数据进行高频词汇统计与分析, 并按照词频由高到低的顺序进行排序. 本文选取了词频排序前100的词汇, 如表 1所示. 由于选取的数据是西安旅游景区的文本评论, 故而"西安" 一词出现的频数远远高于其它词汇, 达4718次. 其次, "可以" "不错" "值得" 三词出现频次较高, 反映出游客对于西安景区整体认可度较高. "表演" "电影"等作为文化宣传的一种方式, 也深受游客关注. 此外, 各大景区中, 游客较为关注"雁塔" "华清池"等.
表1 旅游评论中前100个高频词
高频词 词频 高频词 词频 高频词 词频 高频词 词频
西安 4718 电影 1414 旅游 885 服务 637
可以 3131 导游 1329 灯光 880 灯会 637
不错 2959 漂亮 1306 如果 852 特色 633
值得 2642 景区 1269 下午 839 唐风 630
表演 2611 讲解 1255 喜欢 825 曲江 623
晚上 2391 推荐 1243 园林 820 仿唐 597
梦回 2302 感受 1208 震撼 817 辉煌 596
历史 2216 景色 1202 很大 809 紫云 589
建筑 2214 建议 1130 一般 804 值得一看 587
文化 2063 盛唐 1098 华清池 765 很漂亮 583
大唐 1878 水幕 1079 故事 753 穿越 571
雁塔 1862 看到 1053 环境 752 大明宫 559
盛世 1743 遗址 1037 皇家 751 杨贵妃 556
很多 1671 这个 1036 歌舞 737 主题 556
地方 1668 陕西 1036 游览 726 园内 548
里面 1658 第一 1025 游客 710 景观 532
时间 1651 长安 1024 广场 707 音乐 530
不夜城 1628 方便 995 大型 696 城市 525
门票 1609 好看 988 游玩 673 长恨歌 524
大雁塔 1607 中国 964 体验 669 喷泉 521
演出 1589 免费 933 风景 666 拍照 520
唐代 1538 博物馆 924 贵妃 657 旅行 515
夜景 1525 清宫 900 参观 656 古都 514
唐朝 1433 城墙 889 骊山 645 文物 508
公园 1422 兵马俑 887 白天 642 精彩 501
值得注意的是, 高频词汇大多与旅游城市的遗产资源(Park et al. (2019)), 旅游活动(Martí et al. (2021))和游客情绪(Li et al. (2022)) 相关. 因此, 本文基于以往研究, 将这100个高频词分为遗产资源、旅游活动和游客情绪三类, 以便更加直观的分析, 如表 2所示.
表2 前100个高频词分类
类别 一级分类 二级分类 高频词
遗产资源 物质环境资源 西安, 建筑, 地方, 里面, 公园, 景区, 陕西, 中国, 环境, 风景, 景观, 城市, 喷泉
历史文化资源 唐朝 大唐, 盛世, 唐代, 唐朝, 盛唐, 长安, 城墙, 贵妃, 唐风, 仿唐, 杨贵妃, 长恨歌, 古都, 文物
其它 历史, 文化, 一直, 园林, 故事, 皇家, 紫云, 穿越
旅游活动 旅游时间 时间 时间, 下午, 白天
旅游景点 雁塔, 不夜城, 大雁塔, 博物馆, 华清池, 骊山, 曲江, 大明宫, 清宫, 兵马俑
具体活动 夜间 表演, 梦回, 演出, 夜景, 电影, 灯光, 歌舞, 灯会
白天 讲解, 景色, 水幕, 游玩, 体验, 参观, 拍照
旅游信息 讯息 门票, 导游, 看到, 这个, 免费, 旅游, 游览, 游客, 服务, 主题, 园内, 音乐, 旅行
游客情绪 积极 可以, 不错, 值得, 漂亮, 推荐, 第一, 方便, 好看, 喜欢, 震撼, 很大, 大型, 特色, 辉煌, 值得一看, 很漂亮, 精彩
中性 很多, 感受, 建议, 如果, 一般
遗产资源分为物质环境资源和历史文化资源(莫纪灿和张青萍(2021)). 通过对高频词的分析可知, 游客对西安的物质环境资源的关注多为西安的建筑、公园等. 同时, 对于历史文化资源, 大都关注唐朝有关的历史文化资源和其它历史文化资源. 具体地, 游客对唐朝文化的资源尤其关注, 如"大唐" "盛世" "唐代"等关于唐朝的词汇出现的较多. 例如, "贵妃" "杨贵妃"和"长恨歌"等关键词则表明关于"唐文化" 中唐玄宗和杨贵妃的爱情故事较为关注. 总体来说, 游客对西安的"唐文化" 关注度较高, 游客所关注的唐朝文化主要集中在唐玄宗和杨贵妃的爱情故事上, 对唐朝其他的文化关注度较少, 多停留在"唐朝" 二字上, 即西安市所营造出的"唐朝氛围", 但对于唐朝背后的历史文化挖掘及呈现较少. 基于此, 西安市在旅游业发展的过程中, 可以更着重于挖掘历史遗址背后丰厚的文化资源, 提高文化资源的核心竞争力, 如"大雁塔" 背后的"玄奘保存经卷佛像" 故事, 唐朝政治中心"大明宫" 建造发展等故事.
前100个高频词中有关旅游活动的词汇包括"晚上" "雁塔" "表演" "门票"等, 这些词汇分别与旅游时间、旅游景点、具体活动和旅游信息相关, 故本文将旅游活动分为以上四类. 首先, 游客在西安进行旅游活动的时间较为分散, 从评论中直接反映出来的时间包括下午和白天, 而根据"夜景" "灯光"等高频词也不难推断出游客的旅游时间也包括晚上. 其次, 游客的进行旅游活动的景点较为著名, 如"雁塔" "不夜城" "大雁塔"等, 这类景点多与唐朝相关. 同样, 游客也较为关注"博物馆" 类景点. 游客对秦朝相关旅游景点的关注也有, 如出现887次的"兵马俑". 因此, 为了更进一步宣传历史文化, 西安市也要大力宣传和发展博物馆此类景点, 吸引游客更加关注西安的相关博物馆. 第三, 本文将游客旅游的具体活动划分为白天活动和夜间活动. 游客在夜间的旅游活动多为看"表演" "灯光" "歌舞"等. 而在白天所关注的是"讲解" "景色"等, 这些可以反映出游客在白天的活动多是参观景区, 听导游讲解, 游览景色等. 第四, 在旅游活动中, 游客所关注的旅游信息有"门票" "免费" "服务" "主题" "音乐"等. 可见, 游客对于旅游途中的门票、服务、环境等较为关注.
在游客情绪方面, 可分为积极、中性和消极(Geetha et al. (2017)). 然而, 本文所提取的100个高频词中并没有关于消极情绪的高频词, 主要原因是负面评论较少. 相应地, "可以" "不错" "值得"等高频词出现频率高, 在高频词排序中分别是第二、第三和第四, 中性词出现频率相对较低. 可见, 西安的旅游业整体发展较好, 给游客较为满意的体验.

4.1.2 词云分析

由于词云图能更直观地反映出西安市旅游景区给游客留下的整体印象, 同时也可以反映出游客对于西安市旅游业的关注点. 因此, 本文利用Python的Wordclub库对分词处理后的文本评论生成词云, 如图 5所示, 其中字体的大小反映关键词关注热度的大小. 具体地, 游客的最主要关注点在"景区", 说明西安市吸引游客前往的主要为"景区", 同时, "夜景" "盛世" "水幕" "电影" 也是景区内部的活动, 再次反映了游客对于"景区" 及其内部活动的关注度较高. 另外, 本文所选取14个景区中, 华清池、大唐芙蓉园、大明宫国家遗址公园等大多数景区直接与唐朝相关, 而"夜景" "水幕" "电影"等活动更是营造大唐盛世氛围的重要手段. 其次, "建议" 一词所受游客的关注度较高, 这说明游客对于景区的发展存在一些看法与意见. "环境" 一词也深受游客关注, 对景区环境的提升将更有利于旅游业的发展. 此外, 游客也十分关注"建筑". 可见"建筑" 是吸引游客前往旅游景区的重要因素之一, 促进建筑的可持续发展对于旅游景区至关重要. 最后, "导游"和"票价" 受游客的关注度较高, 景区的发展离不开高素质的导游和合理的票价.
图5 旅游评论词云

Full size|PPT slide

基于此, 西安市应从四方面入手加强景区宣传及建设工作, 以推动景区发展. 第一, 加强景区内部活动建设和发展, 提升景区内景色质量, 提高"水幕" "电影"等要素质量, 给游客以良好的体验. 第二, 加强景区基础设施及环境建设. 游客人数过多将会给景区的基础设施和环境带来负担, 并可能影响游客对出行旅游的评价. 第三, 重视景区"建筑" 的可持续发展. 历史遗迹是景区非常重要的一部分, 同时也是吸引游客的主要因素, 但当游客人数增多时, 不可避免为历史遗迹的可持续发展带来压力. 景区应当做好维护工作和保护工作, 促进景区建筑的可持续发展. 第四, 重视"导游" "门票"等景区发展要素. 导游对于景区的文化宣传及游客体验感具有一定的影响, 加大对导游的培训, 提高导游的文化素质将有利于促进景区的良性可持续发展. 而门票则在一定程度上影响游客是否前往景区的决策及游客游览后的满意度, 制定合理的门票价格则有利于吸引更多的游客, 并提高游客的满意度.

4.1.3 语义网络分析

为了更充分反映在线评论内容之间深层次的结构关系, 本文将筛选出的15, 683条在线评论数据输入至ROST CM6软件中, 设定"大唐芙蓉园" "大唐不夜城" "大雁塔"等专有词汇, 生成西安"唐文化" 相关评论数据的语义网络图, 如图 6所示.
图6 语义网络结构

Full size|PPT slide

显而易见, 西安市有关"唐文化" 相关评论的语义网络同样呈现与其他学者类似的发现: 即"核心—次核心—外围圈" 三层结构(王永明等(2015)). 核心圈由"西安" "大唐芙蓉园" "表演" "文化" "大雁塔"和"建筑" 构成. 六个关键词之间联系紧密, 且出现频次最高, 是游客的首要感知. 环绕在核心词"西安" 周围的包括"大唐盛世" "文化" "建筑" "大雁塔"等词汇. 即游客较为关注西安市的著名景区、建筑和文化. 环绕在"大唐芙蓉园" 这一核心词周围的节点包括"演出" "梦回大唐" "表演" "门票"等, 这表明吸引游客前往"大唐芙蓉园" 景区的主要因素是大唐芙蓉园内的演出和表演, 游客对于此类表演的内容、质量和门票价格较为关注. 因此, 应当注重表演内容和质量的提升, 制定合理的门票价格. "大雁塔" 与"建筑" "大唐不夜城" "公园" "广场"等联系紧密, 说明景区之间也存在一定的联系, 著名的景区对于周围的小景区有一定的辐射作用. 如"大雁塔" 对周围的"广场" "公园" 的辐射作用, 游客在前往"大雁塔" 进行参观游览的同时, 极有可能顺便参观周围的"广场" "公园" 这类相对没有特别出名的小景区.
次核心圈是核心圈的扩展, 由"大唐" "演出" "大唐不夜城" "梦回大唐" "门票" "地方"和"公园" 组成. 这类关键词与核心圈的关键词联系紧密, 是对核心圈关键词的进一步拓展, 主要体现了西安的历史文化和文化宣传方式. "大唐" "演出" "梦回大唐"等词与景区"大唐芙蓉园" 紧密联系, 且"大唐不夜城" 也是游客较为关注的景区之一. 自次核心圈开始, 游客的关注点由西安著名的景区及文化特色逐渐转移到一些较小的景区及景区内部活动和涉及到经济因素. 外围圈是对核心和次核心圈更深一步拓展, 反映了游客的旅游活动及旅游评价. 游客对景区的关注点更为深入, 除"大唐芙蓉园" "大唐不夜城" 外, 游客也关注到了"博物馆" 此类景区. 除"表演" "演出" "梦回大唐" 外, "电影" 也非常受到游客关注. "导游" 作为景区与游客互动的枢纽, 同样也是游客的关注点.

4.2 情感倾向分析

游客所发表的在线评论文本往往表现出一定的情感倾向, 而通过对在线文本的情感分析则有利于更好地发现旅游地形象存在的问题, 以便及时提升服务水平, 改善旅游目的地形象. 此部分利用ROST CM6软件对预处理过的15, 683条数据进行情感分析, 情感分析结果如表 3所示.
表3 情感分析结果(%)
名称 积极情绪 中性情绪 消极情绪 发言总数
占比 87.62 2.26 10.12 100
表 3可知, 游客对于西安旅游形象的感知以积极情绪为主, 但仍存在10.12%的消极情绪. 值得注意的是, 消极情绪更能反映出旅游地所存在的问题, 并方便指导旅游地相关管理部门进行问题改善和发展. 因此, 此部分重点关注负面评论, 通过词频分析提取1, 587条负面评论中的前40个高频词. 如表 4所示.
表4 负面评论前40个高频词
高频词 词频 高频词 词频 高频词 词频 高频词 词频
西安 629 地方 180 唐朝 127 清宫 92
大唐不夜城 474 公园 164 遗址 122 兵马俑 91
表演 323 大雁塔 159 电影 115 感受 88
门票 240 景区 154 夜景 110 讲解 87
晚上 238 景点 147 免费 107 杨贵妃 85
梦回大唐 226 城墙 145 长恨歌 106 唐代 83
大唐 215 建议 138 华清池 102 进去 81
演出 209 建筑 130 大唐盛世 93 下午 76
历史 200 导游 129 灯光 93 旅游 76
时间 192 文化 128 不值 92 骊山 75
通过在负面评论中提取到的40个高频词可知, "大唐不夜城" "表演"和"门票" 是引起游客负面情绪的主要原因. 一定程度上说明了以"大唐不夜城" 此类为代表的旅游景点的旅游服务水平仍有改进空间. 此外, 以"表演" 为代表的此类旅游活动并没有完全满足游客的需求. 同样, 以"门票" 为代表的旅游信息等相关因素也引起部分游客的不满.
同样地, 按照上文对所有评论提取出的100个高频词的分类, 对这40个高频词进行分类, 以探究引发游客负面情绪的因素, 如表 5所示. 本文将引发游客负面情绪因素同样划分为遗产资源, 旅游活动和游客情绪三大类.
表5 负面评论高频词分类
类别 一级分类 高频词
遗产资源 物质环境资源 西安, 地方, 公园, 景区, 景点, 建筑
历史文化资源 大唐, 唐朝, 遗址, 大唐盛世, 杨贵妃, 唐代, 历史, 文化
旅游活动 旅游时间 晚上, 时间, 下午
旅游景点 大唐不夜城, 大雁塔, 城墙, 华清池, 清宫, 骊山, 兵马俑
具体活动 表演, 梦回大唐, 演出, 电影, 夜景, 长恨歌, 灯光, 讲解, 进去, 旅游
旅游信息 门票, 导游, 免费
游客情绪 中性 建议, 感受
负面 不值
在遗产资源方面, 通过查看相关评论, 一些"公园" "景区" "遗址"等资源引起游客的负面情绪, 主要存在的问题为这些旅游资源同质化较严重, 缺乏特色. 这类资源需要进一步完善基础设施, 满足游客需求.
在旅游活动方面, 引发游客负面情绪的主要有7个景区: 大唐不夜城、大雁塔、城墙、华清池、华清宫、骊山和兵马俑. 这7个景区同样也是西安较为著名的景区, 游客对这些景区的关注度较高, 但其需进一步完善旅游服务. 其次, 游客的具体活动多为观看演出, 观赏景观和听讲解. 但从表 5可知, 旅游景区所安排的此类活动并不能满足游客需求, 通过进一步分析关于此类演出和讲解的原负面评论发现, 游客反映的问题多为演出价格贵、演出不够精彩、灯光少且灭得早、讲解不到位等.
在游客情绪方面, 游客主要不满意于门票和导游, 查看原评论发现, 游客认为西安市部分景区存在门票价格偏贵, 部分导游能力不足, 态度不好的问题.
综上, 游客负面情绪产生的原因主要是以下四个方面. 第一, 公园、建筑等此类景观存在同质化现象, 缺乏特色. 第二, 引起游客负面情绪的景区存在服务水平不足和基础设施不健全的问题. 第三, 景区内的演出等活动存在着价格贵、不够精彩、结束早等问题. 第四, 部分景区存在着门票贵, 导游能力不足、态度不好的问题.

4.3 LDA主题识别与检验

4.3.1 LDA主题识别

本文将预处理过的15, 683条评论分为大规模无标记的数据集(14, 657条)和小规模人工标记的数据集(1, 026条) 两部分. 根据上述两类数据, 基于LDA主题模型挖掘数据集中的潜在主题. 具体地, 通过计算前10个主题数量困惑度值(如图 7所示), 当主题数为4时, 困惑度最小为7.916. 因此, 本文使用LDA主题模型提取出4个主题, 并调取这4个主题中的前10个主题词, 如表 6所示. 根据以下主题词可知, 游客所主要关注的四个主题主要为"遗址" "演出和表演" "文物和博物馆"和"导游及平台".
图7 不同主题的困惑度值

Full size|PPT slide

表6 主题及其主题词
主题 主题词及其概率值
遗址 西安(0.033), 历史(0.028), 文化区(0.015), 文化(0.013), 大明宫(0.011), 遗址(0.010), 感受(0.009), 中国(0.008), 古都(0.008), 建筑(0.008)
演出和表演 文化(0.021), 芙蓉(0.020), 文化区(0.016), 大雁塔(0.014), 皇家(0.013), 盛世(0 012), 展示(0.010), 歌舞(0.010), 唐(0.010), 曲江(0.009)
文物和博物馆 西安(0.017), 雁塔(0.015), 博物馆(0.013), 地方(0.013), 芙蓉(0.010), 文物(0.009), 历史(0.009), 华清池(0.009), 清宫(0.008), 博物院(0.008)
导游和平台 导游(0.021), 讲解(0.018), 兵马俑(0.016), 西安(0.018), 秦哥(0.010), 美团(0.010), 买(0.009), 时间(0.009), 梦回(0.009), 门票(0.008)

4.3.2 LDA主题检验

为验证LDA模型所生成的4个主题的有效性和准确性, 本文构建K近邻分类器, 以验证主题识别的有效性. 我们将小样本人工标记的数据集按照LDA模型生成的4类主题进行人工标注, 通过CBOW模型将在线文本数据转换为向量的形式, 进而对K近邻分类器模型进行参数训练, 确保K近邻分类器算法的准确性.
在已知LDA的主题分布情况下, 随机选取了1, 026条数据并通过人工标注的方式进行主题划分, 组成短文本分类模型中K近邻算法的训练集和测试集. 其中, 90%的人工标注数据作为训练集, 10%的数据作为测试集. 将测试集的评论按照无标注方式使用K近邻算法进行测试, 比较其分类结果与人工比较的结果, 如表 7所示. 并根据结果对模型参数进行调整, 其最终结果如表 8所示.
表7 分类情况统计
分类后属于类别Ci 分类后不属于类别Ci
标记属于类别Ci A B
标记不属于类别Ci C D
表8 评价指标
准确率 召回率 调和平均值
81.8% 83.1% 82.6%
准确率、召回率和调和平均值是本文所使用的文本分类评价指标. 经计算, 准确率为81.8%, 召回率为83.1%, 调和平均值为82.6%. 根据计算结果, K近邻算法的准确性较高, 因此可以通过K近邻分类器来对大数据评论及进行主题划分判断. 最后, 将除去人工标注的剩下的文本数据通过CBOW转换为向量后, 输入到K近邻分类器中并计算出结果. 当存在|S|>0.85时, 该评论具有主题, 即属于四个主题中的其中1个. 当存在|S|0.85时, 则该评论不具有主题, 即不能归纳于四个主题中的任意一个. 当有3个或3个以上相似度大于85%的时候, 则认定该句子有相应主题. 经过训练, 在阈值为85%时, 只有668条评论没有对应的主题, 精度较高.

4.4 分析与讨论

根据上文生成的四个主题, 游客对于西安市旅游业发展的关注点主要集中以下四个方面:
第一, 西安市的文化遗址. 文化遗址是西安市旅游业的核心竞争优势, 是吸引游客前往的重要因素. 西安市现存的唐朝古代遗迹较多, 如大明宫、华清宫、大唐芙蓉园、大雁塔、小雁塔等, 游客对于此类的唐朝遗迹的关注度较高. 此类唐朝古代遗迹的发展对于西安市旅游业的发展起着非常重要的作用.
第二, 演出和表演. 歌舞、表演、展览等是促进文化宣传的重要形式. 利用视听结合的方式可以更好地吸引游客注意力, 有利于促进"唐文化" 的宣传. 西安市通过仿唐歌舞、歌舞剧等形式宣传唐朝文化, 可以给游客留下较深印象.
第三, 文物和博物馆. 博物馆很好的保留了一些历史文物和遗迹, 游客参观博物馆是了解当地历史文化的主要方式之一. 根据表可知, 游客较为关注西安市的博物馆和文物.
第四, 导游和平台. 游客对于平台较为关注, 由表 6可知, 前往西安旅游的游客中, 多使用平台"美团". 其次, 导游作为旅游景区的宣传者, 对于景区背后文化故事的传播非常重要, 西安的大多景区都是依托于文化遗迹所建, 景区背后往往有较为深刻的文化内涵和历史故事. 导游则承担了向游客讲解文化内涵和历史故事的角色. 导游素质的高低对于传播历史遗址背后的文化故事非常重要. 有必要加强导游文化素质和道德素质的培育, 促进文化故事更好的传播与交流.

5 结论

本文对数据进行整体分析后, 评论数据中有关"唐文化" 的数据较少, 仅占5.07%, 西安市需进一步加大"唐文化" 的形象塑造. 因此, 本文进一步对筛选出的唐朝相关的评论数据进行分析, 包括词频分析、词云分析、语义网络分析、情感分析和主题词分析, 进一步探讨制约西安市"唐文化" 宣传与发展的因素. 具体结论如下:
第一, 西安市的"唐文化" 古都形象塑造存在很大的提升空间, 仍需进一步加大宣传, 促进文旅融合. 在本文所收集到的有效评论中, 与唐朝相关的评论占比5.07%, 相对较少. 也就是说, 在前往西安旅游的游客中, 仅有5.07%的游客关注到西安的"唐文化". 如何使得其余游客关注到西安市的"唐文化" 将是未来发展的一大重点和难点.
第二, 关注到西安"唐文化" 的游客对其古都形象评价较高. 本文对与唐朝相关的文本进一步分析. 统计的100个高频词中, "大唐" "盛世"和"唐代" 此类词汇出现次数较多, 西安给游客留下了较深的唐朝古都印象. 且"可以" "不错"和"值得" 此类正向评价词汇也较多, 反映出游客对于西安旅游业的正向评价. 同时, 在主题聚类中, 游客所关注的"遗址" "文物和博物馆" 两个主题也与西安的唐朝文化紧密相关. 正是西安塑造的较为成功的唐朝古都形象吸引游客前去参观遗址、文物、博物馆此类景点.
第三, 西安市在"唐文化" 宣传中, 一定程度上忽视了"唐文化" 背后历史故事的传播. 根据统计的100个高频词, 游客较为熟知的文化为唐玄宗和杨贵妃的爱情悲剧, 即华清宫和华清池背后的故事, 而对于其他历史故事或文化较少提及. 同时, 在关键词特征分析和主题词分析中, 都较少提及文物古迹背后的历史故事. 西安市对于其文化形象的塑造不应简单停留在"唐朝" 二字之上, 而应更加重视历史遗迹背后的文化和故事, 向游客宣传深层次的文化.
第四, 歌舞、表演和电影是西安市宣传唐朝文化的一个重要手段. 根据提取的100个高频词, 关键词和主题词分析, 西安市的歌舞, 表演和电影此类宣传方式给游客留下了较深的印象. 但根据情感分析中的负面评论可知, 西安市的歌舞, 表演和电影存在着门票价格贵, 不够精彩和结束时间早等问题. 在未来, 应当着力于问题所在, 对演出门票价格及时间重新调研规划, 探讨歌舞表演创新新路径. 持续推进歌舞, 表演等文化宣传方式的发展, 推动唐朝文化的宣传.
第五, 导游的讲解是文化传播的一个重要方式. 根据上文分析, 游客对于导游等相关信息的关注度较高, 对于西安整体的导游服务也比较认可. 但在情感分析中发现, 部分景区仍存在导游服务态度差, 宣讲水平低的问题. 相关景区应当进一步加强对导游的培养, 提升导游的文化素质和服务素质, 给游客留下更好的印象. 同时, 通过导游积极宣传历史文化, 促进文化素质传播, 有利于更好地打造西安唐朝文化古都的城市形象.
最后, 本文根据西安市文化产业发展现状, 针对现存问题, 给出建议, 以促进西安市文化资源的进一步挖掘和旅游竞争力的进一步提高. 其一, 持续挖掘文化资源, 弘扬大唐文化, 塑造大唐文化古都. 其二, 注重历史文化故事传播, 全方位宣传历史文化, 促进文化传播. 其三, 多种方式促进文化传播, 继续发展电影、演出, 展览等视听结合方式, 挖掘VR、AR等新方式传播文化, 加强导游培养, 讲好历史故事.
未来研究方面, 在情感分析方法选择上, 本文采用ROST CM6进行情感分析, 在未来可考虑自建旅游领域的专属情感词典, 采用深度学习方法进行更加准确的情感分析.

参考文献

高军, 马耀峰, 吴必虎, 外国游客感知视角的我国入境旅游不足之处——基于扎根理论研究范式的分析[J]. 旅游科学, 2010, 24 (5): 49- 55.
Gao J , Ma Y F , Wu B H , Defects of China's Inbound Tourism from Foreign Tourists' Perspective: An Analyze Based on Grounded Theory Research Paradigm[J]. Tourism Science, 2010, 24 (5): 49- 55.
黄震方, 李想, 旅游目的地形象的认知与推广模式[J]. 旅游学刊, 2002, 17 (3): 65- 70.
Huang Z F , Li X , On the Image Perception and Promotion Pattern of Tourist Destination[J]. Tourism Tribune, 2002, 17 (3): 65- 70.
刘逸, 保继刚, 朱毅玲, 基于大数据的旅游目的地情感评价方法探究[J]. 地理研究, 2017, 36 (6): 1091- 1105.
Liu Y , Bao J G , Zhu Y L , Exploring Emotion Methods of Tourism Destination Evaluation: A Big-data Approach[J]. Geographica Research, 2017, 36 (6): 1091- 1105.
莫纪灿, 张青萍, 基于网络文本分析的苏州古典园林活化策略研究——以网师园为例[J]. 资源开发与市场, 2021, 37 (25): 629- 635.
Mo J C , Zhang Q P , Research on Activation Strategy of Suzhou Classical Gardens Based on Network Text Analysis-A Case Study of the Master-of-Nets Garden[J]. Resource Development & Market, 2021, 37 (5): 629- 635.
吴宝清, 吴晋峰, 石晓腾, 张甜歌, 有多少人"慕名而来"?——旅游景区到访率与知名度的关系研究[J]. 旅游学刊, 2020, 35 (1): 78- 94.
Wu B Q , Wu J F , Shi X T , Zhang T G , How Many People Will Visit a Destination after Hearing about It? The Relationship Between Visiting Rate and Destination Awareness[J]. Tourism Tribune, 2020, 35 (1): 78- 94.
史达, 张冰超, 衣博文, 游客的目的地感知是如何形成的?——基于文本挖掘的探索性研究[J]. 旅游学刊, 2022, 37 (3): 68- 82.
Shi D , Zhang B C , Yi B W , How is Tourist Destination Perception Formed? Exploratory Research Based on Text Mining[J]. Tourism Tribune, 2022, 37 (3): 68- 82.
王永明, 王美霞, 李瑞, 吴殿廷, 基于网络文本内容分析的凤凰古城旅游地意象感知研究[J]. 地理与地理信息科学, 2015, 31 (1): 64- 67.
Wang Y M , Wang M X , Li R , Wu D T , Destination Image Perception of Fenghuang Ancient Town Based on Content Analysis of Traverlers' Web Text[J]. Geography and Geo-Information Science, 2015, 31 (1): 64- 67.
徐小波, 赵磊, 刘滨谊, 吴必虎, 钟栎娜, 中国旅游城市形象感知特征与分异[J]. 地理研究, 2015, 34 (7): 1367- 1379.
Xu X B , Zhao L , Liu B Y , Wu B H , Zhong S N , Study on Perceived Image of Chinese Tourist Cities[J]. Geographical Research, 2015, 34 (7): 1367- 1379.
张志飞, 苗夺谦, 高灿, 基于LDA主题模型的短文本分类方法[J]. 计算机应用, 2013, 33 (6): 1587- 1590.
Zhang Z F , Miao D Q , Gao C , Short Text Classification Using Latent Dirichlet Allocation[J]. Journal of Computer Applications, 2013, 33 (6): 1587- 1590.
Andsager J , Drzewiecka J , Desirability of Differences in Destinations[J]. Annals of Tourism Research, 2002, 29 (2): 401- 421.
Assaker G , Vinzi V , O'Connor P , Examining the Effect of Novelty Seeking, Satisfaction, and Destination Image on Tourists' Return Pattern: A Two Factor, Non-linear Latent Growth Model[J]. Tourism Management, 2011, 32 (4): 890- 901.
Avraham E , Destination Marketing and Image Repair during Tourism Crises: The Case of Egypt[J]. Journal of Hospitality and Tourism Management, 2016, 28, 41- 48.
Beerli A , Martin J D , Factors Influencing Destination Image[J]. Annals of Tourism Research, 2004, 31 (3): 657- 681.
Blei D , Ng A , Jordan M , Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3, 993- 1022.
Cai G , Hong Y , Xu L , Gao W , Wang K , et al. An Evaluation of Green Ryokans Through a Tourism Accommodation Survey and Customer-Satisfaction-Related CASBEE-IPA after COVID-19 Pandemic[J]. Sustainability, 2020, 13 (1): 145.
Choi S , Lehto X Y , Morrison A M , Destination Image Representation on the Web: Content Analysis of Macau Travel Related Websites[J]. Tourism Management, 2007, 28 (1): 118- 129.
Cong L , Wu B , Morrison A M , Shu H , Wang M , Analysis of Wildlife Tourism Experiences with Endangered Species: An Exploratory Study of Encounters with Giant Pandas in Chengdu, China[J]. Tourism Management, 2014, 40, 300- 310.
Crompton J L , An Assessment of the Image of Mexico as a Vacation Destination and the Influence of Geographical Location upon that Image[J]. Journal of Travel Research, 1979, 17 (4): 18- 23.
Fang B , Ye Q , Kucukusta D , Law R , Analysis of the Perceived Value of Online Tourism Reviews: Influence of Readability and Reviewer Characteristics[J]. Tourism Management, 2016, 52, 498- 506.
Fränti P , Sieranoja S , K-means Properties on Six Clustering Benchmark Datasets[J]. Applied Intelligence, 2018, 48 (12): 4743- 4759.
Fuchs M , Höpken W , Lexhagen M , Big Data Analytics for Knowledge Generation in Tourism Destinations-A Case from Sweden[J]. Journal of Destination Marketing and Management, 2014, 3 (4): 198- 209.
Geetha M , Singha P , Sinha S , Relationship Between Customer Sentiment and Online Customer Ratings for Hotels-An Empirical Analysis[J]. Tourism Management, 2017, 61, 43- 54.
Giglio S , Bertacchini F , Bilotta E , Pantano P , Using Social Media to Identify Tourism Attractiveness in Six Italian Cities[J]. Tourism Management, 2019, 72, 306- 312.
Gour A , Aggarwal S , Erdem M , Reading Between the Lines: Analyzing Online Reviews by Using a Multi-method Web-analytics Approach[J]. International Journal of Contemporary Hospitality Management, 2021, 33 (2): 490- 512.
Kim H , Stepchenkova S , Effect of Tourist Photographs on Attitudes Towards Destination: Manifest and Latent Content[J]. Tourism Management, 2015, 49, 29- 41.
Li C , Cao M , Wen X , Zhu H , Liu S , et al. MDIVis: Visual Analytics of Multiple Destination Images on Tourism User Generated Content[J]. Visual Informatics, 2022, 6 (3): 1- 10.
Li H , Hu M , Li G , Forecasting Tourism Demand with Multisource Big Data[J]. Annals of Tourism Research, 2020, 83, 102912.
Li J , Feng Y , Li G , Sun X , Tourism Companies' Risk Exposures on Text Disclosure[J]. Annals of Tourism Research, 2020, 84, 102986.
Li S , Wang Y , Filieri R , Zhu Y , Eliciting Positive Emotion through Strategic Responses to COVID-19 Crisis: Evidence from the Tourism Sector[J]. Tourism Management, 2022, 90, 104485.
Liu Y , Huang K , Bao J , Chen K , Listen to the Voices from Home: An Analysis of Chinese Tourists' Sentiments Regarding Australian Destinations[J]. Tourism Management, 2019, 71, 337- 347.
Li X , Law R , Xie G , Wang S , Review of Tourism Forecasting Research with Internet Data[J]. Tourism Management, 2021, 83, 104245.
Mahfouz A Y , Joonas K , Opara E U , An Overview of and Factor Analytic Approach to Flow Theory in Online Contexts[J]. Technology in Society, 2020, 61, 101228.
Martin O , Comvention Destination Images: Analysis of Association Meeting Planners' Percep Tions[J]. Tourism Management, 1996, 17 (3): 175- 182.
Martí P , García-Mayor C , Serrano-Estrada L , Taking the Urban Tourist Activity Pulse Through Digital Footprints[J]. Current Issues in Tourism, 2021, 24 (2): 157- 176.
Ma Y , Xiang Z , Du Q , Fan W , Effects of User-provided Photos on Hotel Review Helpfulness: An Analytical Approach with Deep Leaning[J]. International Journal of Hospitality Management, 2018, 71, 120- 131.
Mikolov T, Chen K, Corrado G, Dean J, (2013). Effcient Estimation of Word Representations in Vector Space[J]. arXiv preprint arXiv: 1301.3781.
Minaee S , Kalchbrenner N , Cambria E , Nikzad N , Chenaghlu M , et al. Deep Learning-based Text Classification: A Comprehensive Review[J]. ACM Computing Surveys (CSUR), 2021, 54 (3): 1- 40.
Neidhardt J , Rümmele N , Werthner H , Predicting Happiness: User Interactions and Sentiment Analysis in an Online Travel Forum[J]. Information Technology & Tourism, 2017, 17 (1): 101- 119.
Pantano E , Priporas C V , Stylos N , "You Will Like It!" Using Open Data to Predict Tourists'Response to a Tourist Attraction[J]. Tourism Management, 2017, 60, 430- 438.
Pan X , Rasouli S , Timmermans H , Investigating Tourist Destination Choice: Effect of Destination Image from Social Network Members[J]. Tourism Management, 2021, 83, 104217.
Park E , Choi B K , Lee T J , The Role and Dimensions of Authenticity in Heritage Tourism[J]. Tourism Management, 2019, 74, 99- 109.
Rahman M , Moghavvemi S , Thirumoorthi T , Rahman M K , The Impact of Tourists' Perceptions on Halal Tourism Destination: A Structural Model Analysis[J]. Tourism Review, 2020, 75 (3): 575- 594.
San Martin H , Del Bosque I A R , Exploring the Cognitive-Affective Nature of Destination Image and the Role of Psychological Factors in Its Formaton[J]. Tourism Management, 2008, 29 (2): 263- 277.
Sarstedt M , Ringle C M , Cheah J H , Ting H , Moisescu O I , et al. Structural Model Robustness Checks in PLS-SEM[J]. Tourism Economics, 2020, 26 (4): 531- 554.
Shafiee S , Ghatari A R , Hasanzadeh A , Jahanyan S , Developing a Model for Sustainable Smart Tourism Destinations: A Systematic Review[J]. Tourism Management Perspectives, 2019, 31, 287- 300.
Simpson G D , Patroni J , Teo A C , Chan J K , Newsome D , Importance-Performance Analysis to Inform Visitor Management at Marine Wildlife Tourism Destinations[J]. Journal of Tourism Futures, 2020, 6 (2): 165- 180.
Sun S L , Jiang F X , Feng G Z , Wang S Y , Zhang C Y , The Impact of COVID-19 on Hotel Customer Satisfaction: Evidence from Beijing and Shanghai in China[J]. International Journal of Contemporary Hospitality Management, 2021, 34 (1): 382- 406.
Xiang Z , Du Q , Ma Y , Fan W , A Comparative Analysis of Major Online Review Platforms: Implications for Social Media Analytics in Hospitality and Tourism[J]. Tourism Management, 2017, 58, 51- 65.
Xiao X , Fang C , Lin H , Characterizing Tourism Destination Image Using Photos' Visual Content[J]. ISPRS International Journal of Geo-Information, 2020, 9 (12): 730.
Xiao X , Fang C , Lin H , Chen J , A framework for Quantitative Analysis and Differentiated Marketing of Tourism Destination Image Based on Visual Content of Photos[J]. Tourism Management, 2022, 93, 104585.
Yang Y , Mao Z , Tang J , Understanding Guest Satisfaction with Urban Hotel Location[J]. Journal of Travel Research, 2017, 57 (2): 243- 259.
Ye Q , Zhang Z , Law R , Sentiment Classification of Online Reviews to Travel Destinations by Supervised Machine Learning Approaches[J]. Expert Systems with Applications, 2009, 36, 6527- 6535.
Zhang H , Fu X , Cai L A , Lu L , Destination Image and Tourist Loyalty: A Meta-analysis[J]. Tourism Management, 2014, 40, 213- 223.
Zhang J , Dong L , Image Monitoring and Management of Hot Tourism Destination Based on Data Mining Technology in Big Data Environment[J]. Microprocessors and Microsystems, 2021, 80, 103515.
Zhang T , Huang X , Viral Marketing: Influencer Marketing Pivots in Tourism-A Case Study of Meme Influencer Instigated Travel Interest Surge[J]. Current Issues in Tourism, 2022, 25 (4): 508- 515.
Zhang W , Fesenmaier D R , Assessing Emotions in Online Stories: Comparing Self-report and Text-based approaches[J]. Information Technology & Tourism, 2018, 20 (1): 83- 95.

版权

版权所有,未经授权。
PDF(5527 KB)

3879

Accesses

0

Citation

Detail

段落导航
相关文章

/