首页 > 业界资讯 > 市场数据 > 正文

为什么驻马店的旅游接待人数比杭州多?——旅游大数据解析

来源:执惠阅读次数:1913时间:2019-04-12

说条旧闻,2019年2月,中国旅游研究院发布了《特别报告丨文旅融合年味更浓,主客共享美好生活》,报告公布了2019年春节游客接待前60位城市。

undefined

仔细看看这个排名表,会发现许多有意思的地方,比如衡阳、邵阳接待人数要比成都、广州多;周口、盐城接待人数要比深圳多;保定、南阳要比桂林多;菏泽、驻马店、商丘要比杭州多;邯郸要比南京多;沧州要比昆明多。也就是衡阳、邵阳、周口、盐城、保定、南阳、菏泽、驻马店、商丘、邯郸等这些城市2019年春节假期接待人数都比南京多!还有这些城市2019年春节假期接待人数也都比昆明多!咦,南京旅游情何以堪!昆明旅游情何以堪!这个城市接待数据排名是怎么来的?报告说:“中国旅游研究院与中国电信联合实验室根据信令大数据测算”,是如雷贯耳的“大数据”。

套用一下百度的定义:大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

现在几乎每一个人都有手机,每一部手机的“信令”就像黑夜里一盏灯光。想象一下,如果我们可以在太空中俯瞰地球上携带手机的人群,就可以看到这样的场景:


 

undefined

我们可以看到每一盏灯光——携带手机的用户,像蚂蚁一样在地区之间穿梭流动,停下滞留。把他们流动方向、停留地点和停留时间按照算法模型进行计算,就可以测算出一个地区一座城市一段时间的旅游接待人数。这就是典型的大数据分析方法,用海量的多样化(流向、停留时间等)的手机信令数据测算另一类数据——旅游接待人数。看起来好像很简单容易,实际上这个过程非常非常复杂。

不过,许多人会产生疑问:为什么这个测算结果和人们也包括许多业内人士的理解大相径庭?按理说中国旅游研究院是国内最权威的旅游统计机构,报告公布以后,怎么没见菏泽的文化和旅游机构或者驻马店人民锣鼓喧天宣告春节假期接待人数超南京超杭州?是没看见这个数据?是不明白这个数据如何出来的?还是对这个数据觉得心里没底?

对于这种有点“反常”数据结果,报告中含混地说出原因:“进一步分析各城市接待量发现,春节期间大批外出务工者返乡,推动了三四线城市旅游景气快速提升”,这就涉及到目前我国实行的旅游统计制度关于游客的定义了。

中国旅游研究院发布的《统计知识 || 旅游统计概念和指标解析》中说:“统计意义上的游客认定以往接待国内游客抽样调查中的调查对象是指:国内游客是不以谋求职业、获取报酬为目的,离开惯常居住环境,到国内其他地方从事参观、游览、度假等旅游活动(包括外出探亲、疗养、考察、参加会议和从事商务、科技、文化、教育、宗教活动过程中的旅游活动),出行距离超过10公里,出游时间超过6小时,但不超过12个月的我国大陆居民。具体包括以下几个要件:

1、国内游客必须是在被访地不形成雇佣关系。根据《2008年国际旅游统计建议》中的解释,出行的主要目的是用来确定旅行者是否算作游客的标准之一。如果旅行者在旅行期间,伴随着旅行而产生赚取了收入,但其不是以获取经济收入为主要目的、没有形成雇佣关系,且停留时间、出行距离等要件符合要求这也算是游客,因此,调查员抽样的调查对象一定是在被访地没有形成雇佣关系的,这点需要明确。

2、国内游客必须是“离开惯常环境,出行距离超过10公里,出游时间超过6小时,但不超过12个月的我国大陆居民”。在旅游统计中,惯常环境是与个人有关的特征,一个家庭中的两个人的惯常环境可能有所区别。例如,一个年轻人长年在A市B区工作,但是他和他的父母长期居住地是A市C区,那么他的惯常环境在A市B区和C区,他父母的惯常环境是A市C区,而B区却并不是他父母的惯常环境。出行距离和出行时间也有相应严格要求,世界上每个国家的标准都有所差异。根据国内实际情况,我们国家选用了相对较低标准。

3、国内游客是“到国内其他地方从事参观、游览、度假等旅游活动(包括外出探亲、疗养、考察、参加会议和从事商务、科技、文化、教育、宗教活动过程中的旅游活动)。旅游活动的范围比较宽泛,包括游客为了旅行或者在旅行之中所做的所有事情,不只限于像观光、参观景点这种被认为的典型旅游活动,还包括为了从事业务、教育和培训等目的的活动,在调查过程中,这些均需要纳入统计。在旅游统计中,按照旅游目的把旅游活动分为:观光/游览、休闲/度假、探亲/访友、商务、会议、宗教/朝拜、文化/体育/科技交流、购物、医疗保健和其他。”

看完这个定义解释,你可能会想到了:目的地城市区域外出务工者返乡人群纳入了游客统计范围,也就是春节期间回家过年的人群纳入了游客统计范围。因为这个庞大的人群符合游客统计的三个要件:1、国内游客必须是在被访地不形成雇佣关系(回家过年当然不形成雇佣关系);2、国内游客必须是离开惯常环境,出行距离超过10公里,出游时间超过6小时,但不超过12个月的我国大陆居民。一位老家在山东菏泽,外出到杭州的务工者,他的“惯常环境”是在杭州而不是菏泽;3、国内游客是“到国内其他地方从事参观、游览、度假等旅游活动(包括外出探亲、疗养、考察、参加会议和从事商务、科技、文化、教育、宗教活动过程中的旅游活动),而春节回家过年这是“探亲”。

这个几乎和春节流动人口重叠的庞大探亲人群纳入游客计算范围,应该是拉动三线、四线甚至五线城市的旅游接待人数超过了许多一线城市的重要原因之一。

深一步探究,《旅游统计调查制度》的官方解释《统计知识 || 省域国内旅游接待统计推算实务》中,地市国内旅游接待数据的测算是这样的:

国内旅游接待人数包括过夜游客人数和一日游游客人数,两类人数的计算方法有所不同。

(1)过夜游客人数 = 在旅游住宿单位过夜的国内游客人数+在亲友家过夜的国内游客人数

(2)在亲友家过夜的国内游客人数 = 旅游吸引物接待总人数×去旅游吸引物而在亲友家过夜的国内游客比重÷在亲友家过夜的国内游客平均游览旅游吸引物数量

(3)一日游游客人数 = 旅游吸引物接待外地市来本地市的国内一日游游客人数+ 旅游吸引物接待本地市的国内一日游游客人数

(4)旅游吸引物接待外地市来本地市的国内一日游游客人数= 旅游吸引物接待总人数×旅游吸引物接待外地市来本地市的国内一日游游客比重÷ 外地市来本地市的国内游客平均游览旅游吸引物数量

(5)旅游吸引物接待本地市的国内一日游游客人数= 旅游吸引物接待总人数× 旅游吸引物接待本地市的国内一日游游客比重÷本地市的国内游客平均游览旅游吸引物数量

旅游吸引物:指旅游地吸引旅游者前往的所有因素的总和。狭义的旅游吸引物指“旅游景区”,本制度指广义的旅游吸引物,即对旅游者具有基本吸引作用的自然因素、社会因素以及其他任何因素。旅游吸引物系统包括一个核心圈层和两个支持层次。旅游产品和旅游资源构成旅游吸引物系统核心圈层的主体,是吸引旅游者的最根本因素。旅游目的地各种旅游支持系统(如住宿设施和各种基础设施等)以及由旅游目的地所传达出的各种信息——标志物,以及逗留在旅游目的地的旅游者本身,作为支持层次构成对旅游者有吸引力的成分。

这段文字非常枯燥,按照定义理解就是:一位在杭州务工人员春节回到菏泽老家,如果天天趴在家里不出门当宅男,就不纳入统计范围。不过如果出门到旅游景区游览,或者去趟博物馆,或者下馆子吃饭,再或者到城市公园溜达一圈,以上这些都可以称为“旅游支持系统”,那就可以纳入统计范围。

再深一步考虑,游客统计中“离开惯常环境,出行距离超过10公里,出游时间超过6小时,但不超过12个月的我国大陆居民”这个范围太大了!在推算方法中,过夜游客还好办,而“一日游游客人数= 旅游吸引物接待外地市来本地市的国内一日游游客人数+ 旅游吸引物接待本地市的国内一日游游客人数”,琢磨一下就会想到,使用传统的统计方法取得这样的数据非常困难,比如如何界定“旅游吸引物”,如何界定10公里和6小时,可操作性就差了些。想想看,菏泽地区本地居民在这个春节假期里到10公里之外的县城走亲访友串亲戚,然后到饭店里搓了一顿,是不是也要纳入计算范围,那会不会是个天大的数据。

实际上,国内许多地方的实际操作过程中,旅游吸引物就界定在“旅游景区”的狭义范畴。回到大数据视角吧,想象一下这像点点灯光的手机用户,他们流动、停留,你如同上帝一样俯视着他们,是不是感叹一下大数据的神奇。且慢!有没有感到哪里有点不对劲。如果我们把中国范围内这一盏一盏移动的灯光看成一个一个手机用户,我们需要按照大数据定义中的“新处理模式”把这些信令数据分析计算旅游接待数据。容易理解的是,通过信令数据可以知道手机用户离开惯常环境(常住的地方),出行距离超过了10公里(可以计算移动距离),出游时间超过6小时(可以计算停留时间),最大的问题是:在这个大数据分析推算过程中,是如何界定“旅游吸引物”的,尤其是如何标注目的地大量的“旅游吸引物”的。因为只有标注了“旅游吸引物”的地理范围,才能知道手机用户是否“游览”或者“进入”了“旅游吸引物”。窃以为,在这次大数据推算过程中,可能是这个环节存在问题。

大数据会骗人,也不会骗人。如果我们不标注“旅游吸引物”或者标注“旅游吸引物”过于宽泛,那就造成春节期间国内那个城市返乡流动人口多,那个城市旅游接待人数就多,“旅游吸引物”的范围弹性,决定了测算数据的多寡。即使我们把“旅游吸引物”限定在景区,还需要通过手机用户的不同行为方式数据,判定是否是游览行为。比如区分博物馆内游客以及隔墙的路人;区分山岳旅游区的游客以及穿过旅游区公路上的过客等等,每一盏移动灯光背后,都要计算和判断是不是旅游行为。这些远远要比我们想象的复杂和困难,也不是高喊“大数据”口号能解决的。

虽然这次大数据的分析推算没有公布过程和算法,还是认为旅游大数据分析应用于国内旅游统计才刚刚起步,需要大量的实践和研究工作,所以报告中的数据可以作为实验室数据,闷头再研究,而作为测算数据公布,似乎还是勉强了点。

旅游业的蓬勃发展,旅游人群的快速增长,旅游行为的散客化、多样化以及生活化,客观上大大增加了旅游统计的难度,为旅游统计工作提出了更高的要求。与其他所有旅游发达国家相比,我们要在世上罕见的春节假期探亲流动人口集中爆发时期,对其中的10公里和6小时以上的旅游行为进行测算分析,稍微有点常识也会想到其中的数据海量和测算难度。与此对比的是,仅仅是春节流动人群的一部分流量几年前就可以让火车票预订平台12306不堪一击。利用大数据分析手段无疑是解决国内旅游统计问题的主要途径,但也应该认识到在这个过程中更多的是解决业务问题而不是技术问题,更多的解决行业认知问题而不是急于求成。驻马店接待人数比南京多,还是要认真分析原因,比如,仅仅依靠单一运营商中国电信数据、手机用户归属地判定、手机移动数据行为分析,还有旅游吸引物的界定等等,都会引发测算结果误差。

旅游统计是旅游业的基础业务,确实还有个别目的地的统计数据失真,闹出笑话。比如在相同统计口径下,本地人口稀少的广域目的地旅游出现所谓“井喷”式增长,在木桶效应下的旅游业,还能进的去,走的了,吃上饭,不露宿,不拥堵,那是奇迹。

另一方面,少数管理者、业者甚至学者忽视旅游统计的复杂性,面对散客化多样化常态化的旅游行为,甚至用托马斯库克时代的简单思路想象现在的旅游统计。比如上个世纪,在当时的交通条件下,国内旅游活动基本是和过夜关联的,一日游的旅游行为是罕见的。而现在随着交通的快捷便利,以往过夜游变成了一日游,是不是就可以不纳入统计范围了,进而结论就是旅游活动越快捷就不能算是旅游活动?!

一个常见的场景是使用自认为清楚统计过程的数据来评价分析自认为了解的旅游行业;而另一方面又想当然认为其中掺杂水分,数据虚假,时不时敲打评论一番。一个踏踏实实做法是看看《旅游统计调查制度》,尤其是找几个省市旅游统计业务人员了解实际业务操作流程,如此而已。有趣的是,一看到中国旅游研究院的学者在朋友圈转发旅游统计基础知识文章的时候,八九不离十又有人质疑批评旅游统计数据了。

最后,再说说大数据。现在旅游大数据成了业内常用词,甚至发展到但凡有个数据,如果前面不加个“大”,你都不好意思说出来。出现了许多“旅游大数据类型”:“穿靴戴帽型”,在“数据”、“数据分析”等前面都搁上“大”字,表示紧跟时代;“望洋兴叹型”,觉得数目字大,数“大”就是大数据,如果旅游接待人数上千万以及上亿,当然是“大”数;“不觉明历型”,不明白什么意思,但是觉得加上“大数据”就很厉害,进而延伸到泛大数据化,沾上技术或者网络就是大数据。说得很多,漫天飞舞,却不落地,未来还需要大量业务实践探索。