热带地理 ›› 2018, Vol. 38 ›› Issue (2): 255-263.doi: 10.13284/j.cnki.rddl.003007
廖薇薇1,柳 林2,3,周素红1,宋广文1,李秋萍1,刘 凯1
LIAO Weiwei1,LIU Lin2,3,ZHOU Suhong1,Song Guangwen1,LI Qiuping1,LIU Kai1
摘要: 利用在线地理编码API解决海量中文地址快速编码问题,在此基础上,利用简单的规则对编码结果进行清洗、标记,最后通过基于系统聚类与随机森林的分类优化模型,将多平台编码结果分类处理、优化。利用广州市盗窃案件地址对模型进行训练与验证,结果表明:相比未处理的编码结果,经模型优化过的编码结果整体位置误差距离减小。高德的地理编码服务有着最好的编码质量,但训练样本的高德编码误差均值仍高达590.43 m,经模型优化后,样本的编码误差均值降至173.73 m,验证样本编码误差均值由554.88 m(高德)降至180.04 m,降低了67.49%,高德90.08%的异常编码结果被清洗优化。对于训练样本与验证样本,模型优化效果相似;对于地址类型不同的案件、位于市区与市郊的案件,模型优化效果相似,说明模型具有一定普适性。该模型能够方便快捷地将海量社会经济信息转化为空间数据,提高编码精度,为地理大数据的研究提供更好的数据支持。