
基于在线文本情感分析的“唐文化”目的地形象挖掘研究
Research on Destination Image Mining of "Tang Culture" Based on Online Text Sentiment Analysis
如何挖掘历史文化资源促进精准营销以高效吸引游客, 是我国诸多文化旅游资源富集的景区亟需解决的问题.本文以西安"唐文化"旅游目的地形象挖掘为研究对象, 通过15, 683条在线文本评论的高频词提取、语义网络分析、主题词挖掘和情感分析, 识别出消费者"唐文化"目的地形象的关注点.研究结果表明, 首先, 前100个高频词可分为遗产资源、旅游活动和游客情绪三类; 其次, 游客较为关注西安著名景区、建筑、文化及"大唐盛世"文化氛围; 再次, 通过文本评论情感分析获取负面情感高频词, 并挖掘负面评论出现的原因; 最后, 通过隐含狄利克雷分布(latent Dirichlet allocation, LDA)模型确定评论主题, 同时, 利用K近邻算法验证LDA主题分类.本文的研究结果可为西安市旅游目的地形象改进和潜在"唐文化"旅游创意策划提供有力支撑, 同时也可为其他历史文化名城提高旅游吸引力提供借鉴.
How to excavate historical and cultural resources to promote precision marketing to attract tourists effciently is an urgent problem that needs to be solved in many scenic spots with rich cultural tourism resources in China. This paper takes Xi'an "Tang Culture" tourist destination image mining as the research target, and identifies consumers' "Tang Culture" destination image through high-frequency word extraction, semantic network, subject word mining and sentiment analysis of 15, 683 online text reviews. The results reveal that, first, the top 100 high-frequency words can be divided into three categories: Heritage resources, tourism activities and tourists' emotions; second, tourists pay more attention to Xi'an's famous scenic spots, architecture, culture and the cultural atmosphere of "the prosperous Tang Dynasty"; third, obtain negative sentiment high-frequency words through text review sentiment analysis, and excavate the reasons for negative reviews; finally, the online review topics are determined through the latent Dirichlet allocation (LDA) model, at the same time, the K-classification algorithm is introduced to verify the LDA theme classification. The research results of this paper can provide strong support for the image improvement of Xi'an tourist destination and the potential "Tang Culture" tourism creative planning, and provide reference for other famous historical and cultural cities to improve their tourist attraction.
文本挖掘 / 情感分析 / 连续词袋(CBOW)模型 / 隐含狄利克雷分布(LDA)模型 {{custom_keyword}} /
text mining / sentiment analysis / continuous bag-of-word model (CBOW) model / latent Dirichlet allocation (LDA) model {{custom_keyword}} /
表1 旅游评论中前100个高频词 |
高频词 | 词频 | 高频词 | 词频 | 高频词 | 词频 | 高频词 | 词频 | |||
西安 | 4718 | 电影 | 1414 | 旅游 | 885 | 服务 | 637 | |||
可以 | 3131 | 导游 | 1329 | 灯光 | 880 | 灯会 | 637 | |||
不错 | 2959 | 漂亮 | 1306 | 如果 | 852 | 特色 | 633 | |||
值得 | 2642 | 景区 | 1269 | 下午 | 839 | 唐风 | 630 | |||
表演 | 2611 | 讲解 | 1255 | 喜欢 | 825 | 曲江 | 623 | |||
晚上 | 2391 | 推荐 | 1243 | 园林 | 820 | 仿唐 | 597 | |||
梦回 | 2302 | 感受 | 1208 | 震撼 | 817 | 辉煌 | 596 | |||
历史 | 2216 | 景色 | 1202 | 很大 | 809 | 紫云 | 589 | |||
建筑 | 2214 | 建议 | 1130 | 一般 | 804 | 值得一看 | 587 | |||
文化 | 2063 | 盛唐 | 1098 | 华清池 | 765 | 很漂亮 | 583 | |||
大唐 | 1878 | 水幕 | 1079 | 故事 | 753 | 穿越 | 571 | |||
雁塔 | 1862 | 看到 | 1053 | 环境 | 752 | 大明宫 | 559 | |||
盛世 | 1743 | 遗址 | 1037 | 皇家 | 751 | 杨贵妃 | 556 | |||
很多 | 1671 | 这个 | 1036 | 歌舞 | 737 | 主题 | 556 | |||
地方 | 1668 | 陕西 | 1036 | 游览 | 726 | 园内 | 548 | |||
里面 | 1658 | 第一 | 1025 | 游客 | 710 | 景观 | 532 | |||
时间 | 1651 | 长安 | 1024 | 广场 | 707 | 音乐 | 530 | |||
不夜城 | 1628 | 方便 | 995 | 大型 | 696 | 城市 | 525 | |||
门票 | 1609 | 好看 | 988 | 游玩 | 673 | 长恨歌 | 524 | |||
大雁塔 | 1607 | 中国 | 964 | 体验 | 669 | 喷泉 | 521 | |||
演出 | 1589 | 免费 | 933 | 风景 | 666 | 拍照 | 520 | |||
唐代 | 1538 | 博物馆 | 924 | 贵妃 | 657 | 旅行 | 515 | |||
夜景 | 1525 | 清宫 | 900 | 参观 | 656 | 古都 | 514 | |||
唐朝 | 1433 | 城墙 | 889 | 骊山 | 645 | 文物 | 508 | |||
公园 | 1422 | 兵马俑 | 887 | 白天 | 642 | 精彩 | 501 |
表2 前100个高频词分类 |
类别 | 一级分类 | 二级分类 | 高频词 |
遗产资源 | 物质环境资源 | 西安, 建筑, 地方, 里面, 公园, 景区, 陕西, 中国, 环境, 风景, 景观, 城市, 喷泉 | |
历史文化资源 | 唐朝 | 大唐, 盛世, 唐代, 唐朝, 盛唐, 长安, 城墙, 贵妃, 唐风, 仿唐, 杨贵妃, 长恨歌, 古都, 文物 | |
其它 | 历史, 文化, 一直, 园林, 故事, 皇家, 紫云, 穿越 | ||
旅游活动 | 旅游时间 | 时间 | 时间, 下午, 白天 |
旅游景点 | 雁塔, 不夜城, 大雁塔, 博物馆, 华清池, 骊山, 曲江, 大明宫, 清宫, 兵马俑 | ||
具体活动 | 夜间 | 表演, 梦回, 演出, 夜景, 电影, 灯光, 歌舞, 灯会 | |
白天 | 讲解, 景色, 水幕, 游玩, 体验, 参观, 拍照 | ||
旅游信息 | 讯息 | 门票, 导游, 看到, 这个, 免费, 旅游, 游览, 游客, 服务, 主题, 园内, 音乐, 旅行 | |
游客情绪 | 积极 | 可以, 不错, 值得, 漂亮, 推荐, 第一, 方便, 好看, 喜欢, 震撼, 很大, 大型, 特色, 辉煌, 值得一看, 很漂亮, 精彩 | |
中性 | 很多, 感受, 建议, 如果, 一般 |
表3 情感分析结果(%) |
名称 | 积极情绪 | 中性情绪 | 消极情绪 | 发言总数 |
占比 | 87.62 | 2.26 | 10.12 | 100 |
表4 负面评论前40个高频词 |
高频词 | 词频 | 高频词 | 词频 | 高频词 | 词频 | 高频词 | 词频 | |||
西安 | 629 | 地方 | 180 | 唐朝 | 127 | 清宫 | 92 | |||
大唐不夜城 | 474 | 公园 | 164 | 遗址 | 122 | 兵马俑 | 91 | |||
表演 | 323 | 大雁塔 | 159 | 电影 | 115 | 感受 | 88 | |||
门票 | 240 | 景区 | 154 | 夜景 | 110 | 讲解 | 87 | |||
晚上 | 238 | 景点 | 147 | 免费 | 107 | 杨贵妃 | 85 | |||
梦回大唐 | 226 | 城墙 | 145 | 长恨歌 | 106 | 唐代 | 83 | |||
大唐 | 215 | 建议 | 138 | 华清池 | 102 | 进去 | 81 | |||
演出 | 209 | 建筑 | 130 | 大唐盛世 | 93 | 下午 | 76 | |||
历史 | 200 | 导游 | 129 | 灯光 | 93 | 旅游 | 76 | |||
时间 | 192 | 文化 | 128 | 不值 | 92 | 骊山 | 75 |
表5 负面评论高频词分类 |
类别 | 一级分类 | 高频词 |
遗产资源 | 物质环境资源 | 西安, 地方, 公园, 景区, 景点, 建筑 |
历史文化资源 | 大唐, 唐朝, 遗址, 大唐盛世, 杨贵妃, 唐代, 历史, 文化 | |
旅游活动 | 旅游时间 | 晚上, 时间, 下午 |
旅游景点 | 大唐不夜城, 大雁塔, 城墙, 华清池, 清宫, 骊山, 兵马俑 | |
具体活动 | 表演, 梦回大唐, 演出, 电影, 夜景, 长恨歌, 灯光, 讲解, 进去, 旅游 | |
旅游信息 | 门票, 导游, 免费 | |
游客情绪 | 中性 | 建议, 感受 |
负面 | 不值 |
表6 主题及其主题词 |
主题 | 主题词及其概率值 |
遗址 | 西安(0.033), 历史(0.028), 文化区(0.015), 文化(0.013), 大明宫(0.011), 遗址(0.010), 感受(0.009), 中国(0.008), 古都(0.008), 建筑(0.008) |
演出和表演 | 文化(0.021), 芙蓉(0.020), 文化区(0.016), 大雁塔(0.014), 皇家(0.013), 盛世(0 012), 展示(0.010), 歌舞(0.010), 唐(0.010), 曲江(0.009) |
文物和博物馆 | 西安(0.017), 雁塔(0.015), 博物馆(0.013), 地方(0.013), 芙蓉(0.010), 文物(0.009), 历史(0.009), 华清池(0.009), 清宫(0.008), 博物院(0.008) |
导游和平台 | 导游(0.021), 讲解(0.018), 兵马俑(0.016), 西安(0.018), 秦哥(0.010), 美团(0.010), 买(0.009), 时间(0.009), 梦回(0.009), 门票(0.008) |
表7 分类情况统计 |
分类后属于类别Ci | 分类后不属于类别Ci | |
标记属于类别Ci | A | B |
标记不属于类别Ci | C | D |
表8 评价指标 |
准确率 | 召回率 | 调和平均值 |
81.8% | 83.1% | 82.6% |
高军, 马耀峰, 吴必虎, 外国游客感知视角的我国入境旅游不足之处——基于扎根理论研究范式的分析[J]. 旅游科学, 2010, 24 (5): 49- 55.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
黄震方, 李想, 旅游目的地形象的认知与推广模式[J]. 旅游学刊, 2002, 17 (3): 65- 70.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
刘逸, 保继刚, 朱毅玲, 基于大数据的旅游目的地情感评价方法探究[J]. 地理研究, 2017, 36 (6): 1091- 1105.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
莫纪灿, 张青萍, 基于网络文本分析的苏州古典园林活化策略研究——以网师园为例[J]. 资源开发与市场, 2021, 37 (25): 629- 635.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
吴宝清, 吴晋峰, 石晓腾, 张甜歌, 有多少人"慕名而来"?——旅游景区到访率与知名度的关系研究[J]. 旅游学刊, 2020, 35 (1): 78- 94.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
史达, 张冰超, 衣博文, 游客的目的地感知是如何形成的?——基于文本挖掘的探索性研究[J]. 旅游学刊, 2022, 37 (3): 68- 82.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
王永明, 王美霞, 李瑞, 吴殿廷, 基于网络文本内容分析的凤凰古城旅游地意象感知研究[J]. 地理与地理信息科学, 2015, 31 (1): 64- 67.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
徐小波, 赵磊, 刘滨谊, 吴必虎, 钟栎娜, 中国旅游城市形象感知特征与分异[J]. 地理研究, 2015, 34 (7): 1367- 1379.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
张志飞, 苗夺谦, 高灿, 基于LDA主题模型的短文本分类方法[J]. 计算机应用, 2013, 33 (6): 1587- 1590.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
Mikolov T, Chen K, Corrado G, Dean J, (2013). Effcient Estimation of Word Representations in Vector Space[J]. arXiv preprint arXiv: 1301.3781.
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_citation.content}}
{{custom_citation.annotation}}
|
{{custom_ref.label}} |
{{custom_citation.content}}
{{custom_citation.annotation}}
|
/
〈 |
|
〉 |