2024年4月1日发(作者:剧逸致)
电信技求
doi:10 3969/]issn 1000-1247 2017 04 OO6
基于手机信令数据的大客流监控应用研究
胡忠顺王进朱亮
上海理想信息产业(集团)有限公司
首先分析处理全市用户位置的大数据所需的架构、特点以及当前存在的问题,然后从各个数据源的应用场景
和算法特征分析能覆盖2G/3G/4G用户各种应用场景的数据源算法。为了更好地验证所采用的基于手机信令
数据的各种算法对大客流监控能力的提升,结合试验结果给出中国电信应用项目场景的成功案例,便于基于
手机信令数据的大客流 控在电信信息化的应用实施进行参考。最后对基于基站的定位在高密度人群等大客
流监控中的位置和角色以及对此可能带来的变化进行了探讨。
手机信令数据手机信令数据算法平均定位精;隹度大客流监控
日引言
H ,传统使J{J的火客流 控方式t耍仃人工客流
控、i'tiq}JL客流监控、视频客流监控,这监方式的缺点如下。
人工客流监控需投入人最人力物力、费时费力、尢法数
字化、精确化,信息再利J{j率低。
闸机客流监控获取的信息仪限于H。入I; ̄Jf'J客流,仉械工
作办式效 举低,尢法实时获知或预测火客流信息,对突发性
大客流的僻删缺乏手段,仔在较人安全隐患。
频客流监控需安装维护火 设备,成本投入人,同时
视频 控仅限于可视范 .并常受天气、光线等 素影响,
监控效率不・ 。
于以I 方式的不足,引入 于运荷商移动通信手机信
手机信令数据圳仃 时、快速、精准l-大优势.能更高
效地实现对人客流的临控需求.通过电信人数掂平台支撑,
使川户手机信令位 数据得以长久保存.并结合其位 轨迹
仃为数掂、川rJ 础 像数据、川户 联 行为数据等,可
现城市常住人l_]分析、 域实时客流峪控、区域精准营销
等应川。凶此,基]:手机信令数 的大客流临拎的应川研究
有 岛的实川价值。
目基于手机信令数据的大客流监控架构搭建
随肴监控的 川场景愈发普及,建 :人客流临控 台
愈 必要 人客流临控 台基丁实时采集的运许商— 机信
令数扔1.义 I l 要使』lj运荷商的PCMD数据 通过这三类数
实现人数j=l=i临控、 台,充分利川运荷商数掘资源和人数据
令数 (以‘卜简称“于机信令数据”)的火客流监控方式
下机信令数 是指移动终端 户 发q|通话、短信、
分析技术,比以前传统力 式的客流统计,,亡论位科学 、时
效件还址投资成本效应方而部有人的提离和跨越
上I圳及变换寻呼 时在运什商p61络中产生的人 手机信令数
据.移动终端数据会反馈如时间、基站信息、场强秆ill,j延等
先闸述运茸商n/,jpCMD信令数据的含义 PCMD数
关丁:川户化 的有效信息,对Jl】户数据产生的时刻进行精准
位 定位,从而判断川户所在的f义:域范I1 。手机信令数掘的
生成催生,r地域区域性统计分析的应删,如区域人f_I统计分
析、旅游景点客流分析预N, ̄n J¨户人群 像等。
于手机信令数据的大客流临控方式是越过电信数据L}J
的佗 信息 法定亿用户经纬度化 .对监控管理乖』1人口统
:PCMD一1x表示、Lj于fJt J ̄户发,E通 、短信等行为时,
录接入基站编号、 站扇 、k 4.呼 站删边 站编号、
Jl1JJ边J,t-:站扇 、mll',J、场强、时延、手机号码、-I三机IMsI等
竹 自、;PCMD-Do 示当2G、3Gf机川户发生 网 行为
时, 求接入 站编号、翠站扇 、土寻呼基站周边 站编
号、川边基站扇区、时间、场强、I忖延、 十JLIMSI 信息
r机信令数 系统的数据也仃其局限性,最大的瓶颌侄
计进行分析,与人1:客流监控、闸机客流统计、视频客流
控等传统方式卡n比,除了彳丁先天性的优势之外,还可减少人
量人r成本、大 设备的安装和维修以及监控区域局限等一
系列常规监控方式存在的弊端,大大降低了经济成本和客流
安全隐患I-几j题。
:数据的实时性。手机信令数据系统融合r多个 站信令数
抛,各个数据的史新周期相同,势必要等到各数 源都剑达
汁弹7t1.-Y0的最优定化数据结果才最为准确。这样不仅JJ 【_人r
计算处理集群的处理 力,也降低r实时数据的准确件 、凶
www.ttm corn cn 21
ERn—一一
- ’-_-_。-_ -●_●’’—,
I|l一啊■
j中转
服务器
图1数据处理架构
此埘卜 时性要求较岛n勺数 .只能对实时效果和数据准确
率进¨综合考虑。
考虑剑川, ’侮 结 的实时性要求,以及全市川户多种
采用流式处 集群K afka接FA传输、.对每个时 ”段f々输过
来的数据,进行实时的数据过滤等顶处 ,便t后续定f 汁
并,,j入分布式队列Ka n(al{l'入库计算处耻集{洋.币¨j 他
定 数捌 ;l,qll,l 数据写入人数据 台的HDFS, 进一
位 数捌处 人数据流的能力, 于手机信令数捌的大客流
监控的数 处 架构搭建如图 乐.说明耍¨下。
(1)堆站信令数据 化时 段内,上成文什,通过采集服
务 进入人数捌 台。
(2)采 剑PCMD信令数捌文件缓存进入分布式队列
Kafka集群
.
步建 Hive数 表进仃历史保仔。
LTE数 从人数据 台的HD FS Ll1获取,定
HDFS,以发 半 足
描
’新的数据文件生成..甘 新义
.、
件生成,则启动数 处 仃务,计强川广1绛纬度化
蚪
(3) Storm流式处
.
过滤尢效数
(4)K afk。, }洋缓存数据通过队列进入计算处 集群,rj]
计算服务 进行定位处 q 。
一一一一一一一一一~ 一集一一一一一~一
一一一慨一~一一一 一 ~~一~懈一一
台进行实时的数据筛选与预处
一数 之法抛以务 流
f}核任
拉
匹配位 标签信息.数据处 完成 启动文件传输与干
¨ 办 .D
务,确保数 尽快 总
流式处理结果缓 进入队列K 集群。
(2)数据清洗
侄数据从操作系统移到数据库的过程l I 数 陂 洗. .
一
些情况下,为厂使输入数槲『F ,使JtJ简 的 则处 输
冼
(5)多数 .『【:总入汁 处 ‘ 集群后,筛选择优后得到单
入数掂。复杂情况下,将会采!J!{=I数 消冼工j』,川数
位时问力度的最优定位结 ,最终的定位结果存入Had。。p离
线处 集群.作为统计分析的 础数 。
(6)对 时lf牛数据,经汁算处理集群处 直接m
工具把数据转换成可以接受的形式. .
从多个源数 系统集成数据时,必须确保米臼小川源
I{l JJK务 传递 接r】服务 进行实时展示.以保证快速响
n‘ }: .
系统填充同一目标字段的数据属 卡}1同。例如彳『的
记录,而另一话单以分钟为 位记录。
JlJ秒
去除重复是指去掉重复的记录 、这个处理过程町以合并
目手机信令数据算法的建立、优化及验证
3.1大客流系统数据处理
始r机数捌从产 }:剑进入人数 、 台,需要 过数
同一个源系统内重复的数据.或俞并一个或多个系统杵 的
数据。
(3)数据标准化处理
数据标滞化处删的主要工作如下。
22 TELE ̄MUNICATIONS TECHNOLOGY/20t 7.4
电信技
格式变换,如对不符合¨期格式的数据将日期格式统一
.=』jyyyy—mIn—dd
赋缺省值,在数掂仓库中定义取值不为空的字段在源数
振埘应的字段可能存在没有取值的记录,这时根据需要,直
通过分析,每组信息可以 -个或多个綦站产生.这些
站分为参考基站(Reference Cel1)和非参考皋站。 一个手机同时
监听多个 站,为手l卡J魄供时间数 的为参考 站,其余为非
参考基站。当PCMD采集数捌时,可能有1~2绀参考基站数 ,
每组参考基站最多可有5个非参考摹站,且这些基站中的一组成
多组数 可能均为卒或(),这取决于参考 站的个数. 此将什 .
数值的参考和非参考基站关键信  ̄,)JId.)MPCMD定位算法中。
接 一个缺省值。
类 变换,如将源系统的 unbe 型转为varcL ̄2类型等。
长度变换,支持对定长、变长格式数据的格式转换,如
将源系统巾定义的varchar2(1())转为varchar2(20)等。
代码转换,如源系统的某些字段经过代码于}‘级以后.将
n勺代码转为新的代码等。
去除宅格,去除字符类型的数据中的前后夺格。
特定字符转换,如对于川于计算的某些字段不能含有
“+
、
(3)三点及多点定位方法的采用
如果包含3个或史多基站的数据,则可以根据该组綦站
进行较为准确的定位。基站越多,定位卡占度越离,因此使川
最小二乘TDOA算法。
(4)定位算法改进内容
经过实际路测数据验证,在多点定位算法q1对不同的基
站类型按照不同类型进行亡f算.能够得到更加精确的定位结
果,凶此最终对于定位算法进行改进优化。
、 、
/”等特殊符号.需要根据业务规则对这些字
符进行指定替换。
(4)数据入库
数捌入库功能指将人群手机信令数据入到大数据平台
巾,一般一份数据分别存储于HBase ̄Hive中,HBase刚于实
将PCMD ̄"成初始化时刻与结束时刻两部分数 ,分别
使朋两时刻数据定位。
于定位 站数日从1~6不定,算法实现|tl按基站类型
时 询服务,Hive主要用于数据分析和挖掘服务。
和时延数据对定位结果赋予一定的权重,按加权平均进行汁
3_2手机信令数据定位算法应用建立
全市手机信令数据系统基于基站信令信息,通过信令信息
中包含的 站信息及辅助数据,计算实际用户所处的经纬度,
同时,通过利川判断射线法得到的丌j户经纬度和日标 域范罔
算,若属于室内站或It寸延较短,则权重较高,对定位结果影
响较高。
计算方法 公式(1)。
之 的关系,便f对区域范同内的客流特征进行统 t-3Y析。
(1)可行性分析
三个 站或多个手机信令数据,可定位至一个点,且有效
珠站越多,定位精度越高,但是三点定位可能存在以下问题。
如果有两个正根,只能通过目标与主站之间的距离找到最
可能的那个根。r打于多径效应的存在,不能保证根的正碲 。
多手机信令数据时,如果进行=i三站轮换,且在轮换过程
至少有两次获得目标的可行解,则可通过对所有可’行解的
聚合获得目标的唯一最可能位置,准确度很高。
三点定位有一定的不确定性,可能出现无解或获得错误
解的情况,但是定位精度比单点和两点定位有r质的提升;
多点定位的可行性最高,定位最准确,理论最完备,可排除
人为假设的影响,能获得理论上的最佳位置,有条件的情况
下应优先实施。
∑( +is_in
值为【】。
…
其r}J若是室内站is_indoor取值为1,=I 室内站is_indoor取
(5)定位算法改进前后路测对比
为了验证定位算法的准确性,测试人员通过手4;tc,ps工
具记录实际经纬度位赞,与定位算法的计算结果比较,得到
算法准确性的判断结论。
定位准确度分析如下。
根据每条数据的时问戳,以及GPS工具箱导出数抛中的
时间戳,匹配并计算每个PCMD数据] ̄ ̄jGPS坐标。
匹配规则:一条PCMD数据时间上_卜浮动5s内,并与之
匹配的所有GPS数据。如果匹配出多条,按均值计算。
得到具体的定位结果见表1。
根 定位结果来看,算法优化后的定位结果精确度得剑
显著提升。
(2)PCMD定位算法的建立
一
条PCMD数据中包含了两个关键时间信息,分别为初
误差
表1定位结果
B0m 100m 150m 2OOm 25Om 300m 350m BOOm
始和终止时刻的时间戳(Timestamp),这反映了手机接入和
断扦网络的时间;其次每个时刻都会产生一组信息,其中与
定位相关的信息有基站号、扇区号、时延、电磁辐照场强等
信息,所以将这两个关键时间信启、加入PCMD定位算法中。
范围 以内 以内 以内 以内 以内 以内 以内 以内
V2.O 10.1% 18.6% 43.6% 69-7% 85.6% 883% 982% 100.O%
V1.0 O5% 1 4% 23% 44% 69% 86% 100% 122%
www ttm.com cn 23
3.3数据分析模型
上,通过区域划分及手机信令数据分析 】1以得到多个复合维
度的基础数据。例如高密度区域人群监控;Ix_-域(商圈、景
区等场景)内的实时客流监控;事后客流分析,包括人群密
度变化趋势、人群来源/去向区域分布、人群归属地分析、
人群基本画像分析等。
征人斛于机信令数 和定化算法的 础【 ,还需要结合
数 分析模型,采集i,t’算 区域¨j人群数 、流向和趋势等。
(1)区域人数汁算模_,l!!
根捌颅先没定的} :控 域地 ,如网格、商 、监控地
块 ,刈‘“{前川期内的 :域人数、流入流出人数进行计算。
对t-_区域人数的计算.匾点是区域内部位 的判别。
使』t川 弧J L'f,rIfI的身寸线法,对在任意多边形内的 站进行
柃…。
口基于手机信令数据应用实例
实时采集二炎运 衙俯令数 .通过搭 人数 、V-
台 构,利用r机信令数捌并法进仃分析,为Jf史府提供史_I、f
域人数 算的粥 个咂要方面,是去 和修_E。在当
川 内订 数据赴 复数掂,足由于某些目标多次产q|数
[L这Ⅱ_匕U标均位于该区域内。因此,对于这些数据需要去
处
景 流临控 刑窠f!siJ
4.1顾村公园实时客流监控
在顾村公同运营管理综合信息平台上,引入各手机似
信令数据作为客流监控与预测的重要数 补充,具彳丁明显的
实川价值。
对于I 域流入雨1流出的人数计算.提取卜H可以反映当前
时刻与I 州 刻人群移动模式的、可计算的、具有边界意义
的特7iE l|},根 该特征鞋构造合适的统计量,从而可以正确
反映人群的移助情况。
(1)实时客流分布
用热力图显示顾村公同及附近多个主要 域的实时人群
密度,更新 划为5min一次,如 2所示。
图2展示的足顾村公 各 域的客流分布情况,不刚的
客流密集程度 示不同的预警颜包,能帮助符理人员更快速
地给出客流疏散方案。
计弭得 的停 人数、进入人数和离开人数等统计结果
保仔任数据库 }J。
(2)人群流动模
人舯流动运行状态分析是进行火客流监控的核心,为了
模拟了1=俐 宁 人 人群的流动分布,拟采用基于面向对
(2)历史.客流统计分析
按天统i.1-J万史客流,可以对比在樱花节时周末和 时的
客流情况,结果如图3所示。
象的技术,在交通流模型 ̄n,77人流模型的基础上,建立一个
限, |J内r 密度人群流动的元胞白动机模型。采用面向
对象思想的建模疗法,使模型具有很好的适用性、扩‘展性和
复川J悱..人群流动运-7 i-4J ̄念分析的主要上作包括以F两点。
按小l时统 每天符个时段的客流分布曲线,可以任选2
天进行刘比分析.结 如网4所示
小变 t弹:核心是统计4 ̄n4,t 算各个采集点的人流速
度(加速度)、密度和流 。
人群流动I J表达为速度、流 、密度三者之间的关系,
见公式(2)。
Q=七×v (2)
通过实时培站的定位弭法实现人流监控 台,呵以实时
统计顾村公同内外各个地块的人群数 、人群密度和热门集
中地分布情况。通过人群流动情况. 算出不同区域内的人
群数量变f-E情况,可以刘比分析僻出网格区域内人群数茜=}变
化情况。此外充分利J IJ中国电信DPI互联网大数据,探索线上
与线下的互动模式.实现更长周期、更人范隔的客流预测。
其IflQ为人流的流宰, 为人流密度, 为人流速度。
人流密度和人流速度 要依靠手机用户在感知设备定位
的化 移动进 t 算;也_f以通过视频的人流识别计算得到。
人7J ̄i Pt',J 域分 分析:将海昂的 户手机信息位 数
,
按 域、时 段、移动方向进行分类和统计,计算m
域网格内的人群流入鞋、流出国、存话与密度,以及人群
流动的 和速度。通过人流的 域分布分析,可以实现热
点 域的 别
3.4手机信令数据算法应用范围
通过定位弹法及 优化,保留r人髓有效及准确的手机
信令数 ,定化的7fi 矾度 以达到3(J(),n范 内,在此綦础
图2_顾村公园实时客流监控示意
moNSTECH 10l oGY/2O1 7 ・4
电佑技
参考文献
l I】YD,,T 2232—20I I cdma2000数字蜂窝移动通信网基于用户平面的
定位系统技术要求fs】201 1
I2]屠晓东基于UWB信号的多基站与单基站定位算法的研究与性能
分析ID】青岛:中国海洋大学 20I 2
i 5】 姚金杰
学.201l
基于地面基站的目标定位技术研究lD】.太原:中北大
I4】聂颖,易强,江红.等CDMA无线定位系统的基站选择算法I Jl电讯
图3按天客流统计分析示意
撞术 2004(1)
f5 J 夏林元,关东金多基站模式下的实时与自适应室内定位方法研
YciJ]测绘通报,201 2(1】il,i
如对本文内容有任何观点或评论,请发E—mailYttm@bjxintong corn cn
胡忠顺
坝 毕、 f J 海沁 人学,KlJ『j从事1T领域的j1支术研亢、
多项1{I…电 歧 他畋
Ii
J :,i 1,fiJl。发及 J—1. :,先后
图4按小时客流统计分析示意
、_J,l 砸人信息化l。佴,
I 2345IF ̄.JQ:服务热
f…I iI_IIZ信人数 l、Iz 、I
,扶 过多 肖部纨利披进步灾,近
团结束语
义l}1f『J『 E J r 令教 … 人 高流 川,j{:
j(JJ,i 从’J"川《 技术、人数 、分布 技术1 内研 ,搜
川父 r 形1发
王进
住安 川窠 中实 J,4'iS#klx;域、特琳II JU]FI9 J bI 11、. ̄ 1。: .7
放支持_r人 流的及州1 : , 现J 刈特 止 忻 j颅测,
小 。毕、ll/r尔 人 、 , 就职J 叫咀 l:.TtLf# 恕价 :
坝的人It'lL7fil! 仃为的…I像分析, 仃效 Ⅲ十 会
仓、 城 、【k T1.]察、城m爻越姚:JtiJ、崩、_I, 划
良女f-I 会效衙和 济效
安
、lI,( I刑)仃 公IlI J人数 、『 l务 .丰 研究 …为大'敏
f,)d;JT、教
朱亮
,II
、
此,j 卜垠站的 f,7.fQ--为一种移 迎信定f、 技术,侄
迁位f『1f放 ,f_1llJ扩腱 :力 l/1 Jf 在较人优坍,近j IJ if u  ̄-I i …
画像的人 流临 分析 I l J/J法【】_J戊为 他人 流2 7 I],-
小利,
一
、l jl t:j ̄jiili 人 、 , 忧心J‘qJ…_u 1 海
I' 、1 (泵川)仃 公 人数 务 ,1 方向为人
教 分析、人数 、 台 构
控 J弋( IWi—Fi抓针)FI<Jn 补充,埘捉/I LJ
知度、降低返 分析成小 剑良好的效
(J一接21lIj1)
J、 I'l"J感
i5.接从后
{ 怕
僻 台扶.tl¥t I lJl]建摸I,J以'汞川j I=c=5(
刘凯凯
n‘jt:iti u1』Jl】摸
参考文献
I1]张丈彤,钟云飞lBM SPSS ̄k据分析与挖掘实战案例精粹[M_北京
fiji1 1 .毕业J J人II】l5『乜人 .脱j l r『 】彬劬迎信集川没
IUdQ限公II"J币从分公 1,I 缎¨ 师,Kjijj:敛 J于尤#Rl ̄xJ
络 没 技术l1'I,jti)l’亢和跟
清华大学出版社 201 31ii
如对本文内容有任何观点或评论,请发E—mail ̄7Htm@bjxintong corn cn
WWW.ttm corn cn 25
2024年4月1日发(作者:剧逸致)
电信技求
doi:10 3969/]issn 1000-1247 2017 04 OO6
基于手机信令数据的大客流监控应用研究
胡忠顺王进朱亮
上海理想信息产业(集团)有限公司
首先分析处理全市用户位置的大数据所需的架构、特点以及当前存在的问题,然后从各个数据源的应用场景
和算法特征分析能覆盖2G/3G/4G用户各种应用场景的数据源算法。为了更好地验证所采用的基于手机信令
数据的各种算法对大客流监控能力的提升,结合试验结果给出中国电信应用项目场景的成功案例,便于基于
手机信令数据的大客流 控在电信信息化的应用实施进行参考。最后对基于基站的定位在高密度人群等大客
流监控中的位置和角色以及对此可能带来的变化进行了探讨。
手机信令数据手机信令数据算法平均定位精;隹度大客流监控
日引言
H ,传统使J{J的火客流 控方式t耍仃人工客流
控、i'tiq}JL客流监控、视频客流监控,这监方式的缺点如下。
人工客流监控需投入人最人力物力、费时费力、尢法数
字化、精确化,信息再利J{j率低。
闸机客流监控获取的信息仪限于H。入I; ̄Jf'J客流,仉械工
作办式效 举低,尢法实时获知或预测火客流信息,对突发性
大客流的僻删缺乏手段,仔在较人安全隐患。
频客流监控需安装维护火 设备,成本投入人,同时
视频 控仅限于可视范 .并常受天气、光线等 素影响,
监控效率不・ 。
于以I 方式的不足,引入 于运荷商移动通信手机信
手机信令数据圳仃 时、快速、精准l-大优势.能更高
效地实现对人客流的临控需求.通过电信人数掂平台支撑,
使川户手机信令位 数据得以长久保存.并结合其位 轨迹
仃为数掂、川rJ 础 像数据、川户 联 行为数据等,可
现城市常住人l_]分析、 域实时客流峪控、区域精准营销
等应川。凶此,基]:手机信令数 的大客流临拎的应川研究
有 岛的实川价值。
目基于手机信令数据的大客流监控架构搭建
随肴监控的 川场景愈发普及,建 :人客流临控 台
愈 必要 人客流临控 台基丁实时采集的运许商— 机信
令数扔1.义 I l 要使』lj运荷商的PCMD数据 通过这三类数
实现人数j=l=i临控、 台,充分利川运荷商数掘资源和人数据
令数 (以‘卜简称“于机信令数据”)的火客流监控方式
下机信令数 是指移动终端 户 发q|通话、短信、
分析技术,比以前传统力 式的客流统计,,亡论位科学 、时
效件还址投资成本效应方而部有人的提离和跨越
上I圳及变换寻呼 时在运什商p61络中产生的人 手机信令数
据.移动终端数据会反馈如时间、基站信息、场强秆ill,j延等
先闸述运茸商n/,jpCMD信令数据的含义 PCMD数
关丁:川户化 的有效信息,对Jl】户数据产生的时刻进行精准
位 定位,从而判断川户所在的f义:域范I1 。手机信令数掘的
生成催生,r地域区域性统计分析的应删,如区域人f_I统计分
析、旅游景点客流分析预N, ̄n J¨户人群 像等。
于手机信令数据的大客流临控方式是越过电信数据L}J
的佗 信息 法定亿用户经纬度化 .对监控管理乖』1人口统
:PCMD一1x表示、Lj于fJt J ̄户发,E通 、短信等行为时,
录接入基站编号、 站扇 、k 4.呼 站删边 站编号、
Jl1JJ边J,t-:站扇 、mll',J、场强、时延、手机号码、-I三机IMsI等
竹 自、;PCMD-Do 示当2G、3Gf机川户发生 网 行为
时, 求接入 站编号、翠站扇 、土寻呼基站周边 站编
号、川边基站扇区、时间、场强、I忖延、 十JLIMSI 信息
r机信令数 系统的数据也仃其局限性,最大的瓶颌侄
计进行分析,与人1:客流监控、闸机客流统计、视频客流
控等传统方式卡n比,除了彳丁先天性的优势之外,还可减少人
量人r成本、大 设备的安装和维修以及监控区域局限等一
系列常规监控方式存在的弊端,大大降低了经济成本和客流
安全隐患I-几j题。
:数据的实时性。手机信令数据系统融合r多个 站信令数
抛,各个数据的史新周期相同,势必要等到各数 源都剑达
汁弹7t1.-Y0的最优定化数据结果才最为准确。这样不仅JJ 【_人r
计算处理集群的处理 力,也降低r实时数据的准确件 、凶
www.ttm corn cn 21
ERn—一一
- ’-_-_。-_ -●_●’’—,
I|l一啊■
j中转
服务器
图1数据处理架构
此埘卜 时性要求较岛n勺数 .只能对实时效果和数据准确
率进¨综合考虑。
考虑剑川, ’侮 结 的实时性要求,以及全市川户多种
采用流式处 集群K afka接FA传输、.对每个时 ”段f々输过
来的数据,进行实时的数据过滤等顶处 ,便t后续定f 汁
并,,j入分布式队列Ka n(al{l'入库计算处耻集{洋.币¨j 他
定 数捌 ;l,qll,l 数据写入人数据 台的HDFS, 进一
位 数捌处 人数据流的能力, 于手机信令数捌的大客流
监控的数 处 架构搭建如图 乐.说明耍¨下。
(1)堆站信令数据 化时 段内,上成文什,通过采集服
务 进入人数捌 台。
(2)采 剑PCMD信令数捌文件缓存进入分布式队列
Kafka集群
.
步建 Hive数 表进仃历史保仔。
LTE数 从人数据 台的HD FS Ll1获取,定
HDFS,以发 半 足
描
’新的数据文件生成..甘 新义
.、
件生成,则启动数 处 仃务,计强川广1绛纬度化
蚪
(3) Storm流式处
.
过滤尢效数
(4)K afk。, }洋缓存数据通过队列进入计算处 集群,rj]
计算服务 进行定位处 q 。
一一一一一一一一一~ 一集一一一一一~一
一一一慨一~一一一 一 ~~一~懈一一
台进行实时的数据筛选与预处
一数 之法抛以务 流
f}核任
拉
匹配位 标签信息.数据处 完成 启动文件传输与干
¨ 办 .D
务,确保数 尽快 总
流式处理结果缓 进入队列K 集群。
(2)数据清洗
侄数据从操作系统移到数据库的过程l I 数 陂 洗. .
一
些情况下,为厂使输入数槲『F ,使JtJ简 的 则处 输
冼
(5)多数 .『【:总入汁 处 ‘ 集群后,筛选择优后得到单
入数掂。复杂情况下,将会采!J!{=I数 消冼工j』,川数
位时问力度的最优定位结 ,最终的定位结果存入Had。。p离
线处 集群.作为统计分析的 础数 。
(6)对 时lf牛数据,经汁算处理集群处 直接m
工具把数据转换成可以接受的形式. .
从多个源数 系统集成数据时,必须确保米臼小川源
I{l JJK务 传递 接r】服务 进行实时展示.以保证快速响
n‘ }: .
系统填充同一目标字段的数据属 卡}1同。例如彳『的
记录,而另一话单以分钟为 位记录。
JlJ秒
去除重复是指去掉重复的记录 、这个处理过程町以合并
目手机信令数据算法的建立、优化及验证
3.1大客流系统数据处理
始r机数捌从产 }:剑进入人数 、 台,需要 过数
同一个源系统内重复的数据.或俞并一个或多个系统杵 的
数据。
(3)数据标准化处理
数据标滞化处删的主要工作如下。
22 TELE ̄MUNICATIONS TECHNOLOGY/20t 7.4
电信技
格式变换,如对不符合¨期格式的数据将日期格式统一
.=』jyyyy—mIn—dd
赋缺省值,在数掂仓库中定义取值不为空的字段在源数
振埘应的字段可能存在没有取值的记录,这时根据需要,直
通过分析,每组信息可以 -个或多个綦站产生.这些
站分为参考基站(Reference Cel1)和非参考皋站。 一个手机同时
监听多个 站,为手l卡J魄供时间数 的为参考 站,其余为非
参考基站。当PCMD采集数捌时,可能有1~2绀参考基站数 ,
每组参考基站最多可有5个非参考摹站,且这些基站中的一组成
多组数 可能均为卒或(),这取决于参考 站的个数. 此将什 .
数值的参考和非参考基站关键信  ̄,)JId.)MPCMD定位算法中。
接 一个缺省值。
类 变换,如将源系统的 unbe 型转为varcL ̄2类型等。
长度变换,支持对定长、变长格式数据的格式转换,如
将源系统巾定义的varchar2(1())转为varchar2(20)等。
代码转换,如源系统的某些字段经过代码于}‘级以后.将
n勺代码转为新的代码等。
去除宅格,去除字符类型的数据中的前后夺格。
特定字符转换,如对于川于计算的某些字段不能含有
“+
、
(3)三点及多点定位方法的采用
如果包含3个或史多基站的数据,则可以根据该组綦站
进行较为准确的定位。基站越多,定位卡占度越离,因此使川
最小二乘TDOA算法。
(4)定位算法改进内容
经过实际路测数据验证,在多点定位算法q1对不同的基
站类型按照不同类型进行亡f算.能够得到更加精确的定位结
果,凶此最终对于定位算法进行改进优化。
、 、
/”等特殊符号.需要根据业务规则对这些字
符进行指定替换。
(4)数据入库
数捌入库功能指将人群手机信令数据入到大数据平台
巾,一般一份数据分别存储于HBase ̄Hive中,HBase刚于实
将PCMD ̄"成初始化时刻与结束时刻两部分数 ,分别
使朋两时刻数据定位。
于定位 站数日从1~6不定,算法实现|tl按基站类型
时 询服务,Hive主要用于数据分析和挖掘服务。
和时延数据对定位结果赋予一定的权重,按加权平均进行汁
3_2手机信令数据定位算法应用建立
全市手机信令数据系统基于基站信令信息,通过信令信息
中包含的 站信息及辅助数据,计算实际用户所处的经纬度,
同时,通过利川判断射线法得到的丌j户经纬度和日标 域范罔
算,若属于室内站或It寸延较短,则权重较高,对定位结果影
响较高。
计算方法 公式(1)。
之 的关系,便f对区域范同内的客流特征进行统 t-3Y析。
(1)可行性分析
三个 站或多个手机信令数据,可定位至一个点,且有效
珠站越多,定位精度越高,但是三点定位可能存在以下问题。
如果有两个正根,只能通过目标与主站之间的距离找到最
可能的那个根。r打于多径效应的存在,不能保证根的正碲 。
多手机信令数据时,如果进行=i三站轮换,且在轮换过程
至少有两次获得目标的可行解,则可通过对所有可’行解的
聚合获得目标的唯一最可能位置,准确度很高。
三点定位有一定的不确定性,可能出现无解或获得错误
解的情况,但是定位精度比单点和两点定位有r质的提升;
多点定位的可行性最高,定位最准确,理论最完备,可排除
人为假设的影响,能获得理论上的最佳位置,有条件的情况
下应优先实施。
∑( +is_in
值为【】。
…
其r}J若是室内站is_indoor取值为1,=I 室内站is_indoor取
(5)定位算法改进前后路测对比
为了验证定位算法的准确性,测试人员通过手4;tc,ps工
具记录实际经纬度位赞,与定位算法的计算结果比较,得到
算法准确性的判断结论。
定位准确度分析如下。
根据每条数据的时问戳,以及GPS工具箱导出数抛中的
时间戳,匹配并计算每个PCMD数据] ̄ ̄jGPS坐标。
匹配规则:一条PCMD数据时间上_卜浮动5s内,并与之
匹配的所有GPS数据。如果匹配出多条,按均值计算。
得到具体的定位结果见表1。
根 定位结果来看,算法优化后的定位结果精确度得剑
显著提升。
(2)PCMD定位算法的建立
一
条PCMD数据中包含了两个关键时间信息,分别为初
误差
表1定位结果
B0m 100m 150m 2OOm 25Om 300m 350m BOOm
始和终止时刻的时间戳(Timestamp),这反映了手机接入和
断扦网络的时间;其次每个时刻都会产生一组信息,其中与
定位相关的信息有基站号、扇区号、时延、电磁辐照场强等
信息,所以将这两个关键时间信启、加入PCMD定位算法中。
范围 以内 以内 以内 以内 以内 以内 以内 以内
V2.O 10.1% 18.6% 43.6% 69-7% 85.6% 883% 982% 100.O%
V1.0 O5% 1 4% 23% 44% 69% 86% 100% 122%
www ttm.com cn 23
3.3数据分析模型
上,通过区域划分及手机信令数据分析 】1以得到多个复合维
度的基础数据。例如高密度区域人群监控;Ix_-域(商圈、景
区等场景)内的实时客流监控;事后客流分析,包括人群密
度变化趋势、人群来源/去向区域分布、人群归属地分析、
人群基本画像分析等。
征人斛于机信令数 和定化算法的 础【 ,还需要结合
数 分析模型,采集i,t’算 区域¨j人群数 、流向和趋势等。
(1)区域人数汁算模_,l!!
根捌颅先没定的} :控 域地 ,如网格、商 、监控地
块 ,刈‘“{前川期内的 :域人数、流入流出人数进行计算。
对t-_区域人数的计算.匾点是区域内部位 的判别。
使』t川 弧J L'f,rIfI的身寸线法,对在任意多边形内的 站进行
柃…。
口基于手机信令数据应用实例
实时采集二炎运 衙俯令数 .通过搭 人数 、V-
台 构,利用r机信令数捌并法进仃分析,为Jf史府提供史_I、f
域人数 算的粥 个咂要方面,是去 和修_E。在当
川 内订 数据赴 复数掂,足由于某些目标多次产q|数
[L这Ⅱ_匕U标均位于该区域内。因此,对于这些数据需要去
处
景 流临控 刑窠f!siJ
4.1顾村公园实时客流监控
在顾村公同运营管理综合信息平台上,引入各手机似
信令数据作为客流监控与预测的重要数 补充,具彳丁明显的
实川价值。
对于I 域流入雨1流出的人数计算.提取卜H可以反映当前
时刻与I 州 刻人群移动模式的、可计算的、具有边界意义
的特7iE l|},根 该特征鞋构造合适的统计量,从而可以正确
反映人群的移助情况。
(1)实时客流分布
用热力图显示顾村公同及附近多个主要 域的实时人群
密度,更新 划为5min一次,如 2所示。
图2展示的足顾村公 各 域的客流分布情况,不刚的
客流密集程度 示不同的预警颜包,能帮助符理人员更快速
地给出客流疏散方案。
计弭得 的停 人数、进入人数和离开人数等统计结果
保仔任数据库 }J。
(2)人群流动模
人舯流动运行状态分析是进行火客流监控的核心,为了
模拟了1=俐 宁 人 人群的流动分布,拟采用基于面向对
(2)历史.客流统计分析
按天统i.1-J万史客流,可以对比在樱花节时周末和 时的
客流情况,结果如图3所示。
象的技术,在交通流模型 ̄n,77人流模型的基础上,建立一个
限, |J内r 密度人群流动的元胞白动机模型。采用面向
对象思想的建模疗法,使模型具有很好的适用性、扩‘展性和
复川J悱..人群流动运-7 i-4J ̄念分析的主要上作包括以F两点。
按小l时统 每天符个时段的客流分布曲线,可以任选2
天进行刘比分析.结 如网4所示
小变 t弹:核心是统计4 ̄n4,t 算各个采集点的人流速
度(加速度)、密度和流 。
人群流动I J表达为速度、流 、密度三者之间的关系,
见公式(2)。
Q=七×v (2)
通过实时培站的定位弭法实现人流监控 台,呵以实时
统计顾村公同内外各个地块的人群数 、人群密度和热门集
中地分布情况。通过人群流动情况. 算出不同区域内的人
群数量变f-E情况,可以刘比分析僻出网格区域内人群数茜=}变
化情况。此外充分利J IJ中国电信DPI互联网大数据,探索线上
与线下的互动模式.实现更长周期、更人范隔的客流预测。
其IflQ为人流的流宰, 为人流密度, 为人流速度。
人流密度和人流速度 要依靠手机用户在感知设备定位
的化 移动进 t 算;也_f以通过视频的人流识别计算得到。
人7J ̄i Pt',J 域分 分析:将海昂的 户手机信息位 数
,
按 域、时 段、移动方向进行分类和统计,计算m
域网格内的人群流入鞋、流出国、存话与密度,以及人群
流动的 和速度。通过人流的 域分布分析,可以实现热
点 域的 别
3.4手机信令数据算法应用范围
通过定位弹法及 优化,保留r人髓有效及准确的手机
信令数 ,定化的7fi 矾度 以达到3(J(),n范 内,在此綦础
图2_顾村公园实时客流监控示意
moNSTECH 10l oGY/2O1 7 ・4
电佑技
参考文献
l I】YD,,T 2232—20I I cdma2000数字蜂窝移动通信网基于用户平面的
定位系统技术要求fs】201 1
I2]屠晓东基于UWB信号的多基站与单基站定位算法的研究与性能
分析ID】青岛:中国海洋大学 20I 2
i 5】 姚金杰
学.201l
基于地面基站的目标定位技术研究lD】.太原:中北大
I4】聂颖,易强,江红.等CDMA无线定位系统的基站选择算法I Jl电讯
图3按天客流统计分析示意
撞术 2004(1)
f5 J 夏林元,关东金多基站模式下的实时与自适应室内定位方法研
YciJ]测绘通报,201 2(1】il,i
如对本文内容有任何观点或评论,请发E—mailYttm@bjxintong corn cn
胡忠顺
坝 毕、 f J 海沁 人学,KlJ『j从事1T领域的j1支术研亢、
多项1{I…电 歧 他畋
Ii
J :,i 1,fiJl。发及 J—1. :,先后
图4按小时客流统计分析示意
、_J,l 砸人信息化l。佴,
I 2345IF ̄.JQ:服务热
f…I iI_IIZ信人数 l、Iz 、I
,扶 过多 肖部纨利披进步灾,近
团结束语
义l}1f『J『 E J r 令教 … 人 高流 川,j{:
j(JJ,i 从’J"川《 技术、人数 、分布 技术1 内研 ,搜
川父 r 形1发
王进
住安 川窠 中实 J,4'iS#klx;域、特琳II JU]FI9 J bI 11、. ̄ 1。: .7
放支持_r人 流的及州1 : , 现J 刈特 止 忻 j颅测,
小 。毕、ll/r尔 人 、 , 就职J 叫咀 l:.TtLf# 恕价 :
坝的人It'lL7fil! 仃为的…I像分析, 仃效 Ⅲ十 会
仓、 城 、【k T1.]察、城m爻越姚:JtiJ、崩、_I, 划
良女f-I 会效衙和 济效
安
、lI,( I刑)仃 公IlI J人数 、『 l务 .丰 研究 …为大'敏
f,)d;JT、教
朱亮
,II
、
此,j 卜垠站的 f,7.fQ--为一种移 迎信定f、 技术,侄
迁位f『1f放 ,f_1llJ扩腱 :力 l/1 Jf 在较人优坍,近j IJ if u  ̄-I i …
画像的人 流临 分析 I l J/J法【】_J戊为 他人 流2 7 I],-
小利,
一
、l jl t:j ̄jiili 人 、 , 忧心J‘qJ…_u 1 海
I' 、1 (泵川)仃 公 人数 务 ,1 方向为人
教 分析、人数 、 台 构
控 J弋( IWi—Fi抓针)FI<Jn 补充,埘捉/I LJ
知度、降低返 分析成小 剑良好的效
(J一接21lIj1)
J、 I'l"J感
i5.接从后
{ 怕
僻 台扶.tl¥t I lJl]建摸I,J以'汞川j I=c=5(
刘凯凯
n‘jt:iti u1』Jl】摸
参考文献
I1]张丈彤,钟云飞lBM SPSS ̄k据分析与挖掘实战案例精粹[M_北京
fiji1 1 .毕业J J人II】l5『乜人 .脱j l r『 】彬劬迎信集川没
IUdQ限公II"J币从分公 1,I 缎¨ 师,Kjijj:敛 J于尤#Rl ̄xJ
络 没 技术l1'I,jti)l’亢和跟
清华大学出版社 201 31ii
如对本文内容有任何观点或评论,请发E—mail ̄7Htm@bjxintong corn cn
WWW.ttm corn cn 25