7.3 数据处理及测算方法

7.3.1 数据处理

1.样本选取

省会城市与计划单列市报告部分选取的样本是包括省会城市、计划单列市、直辖市在内的36个城市，以市为单位进行区域民生发展指数的测算与比较。由于历史原因，中国台湾、香港、澳门等地区的统计数据与中国其他城市的数据具有不同程度的差异，未被列入本报告研究范围。地级城市报告部分选取的样本是27个省（区）的260个地级市，以市为单位进行区域民生发展指数的测算与比较。[1]

2.数据收集

为保障数据科学、准确，本报告采用的基础数据全部来源于公开出版的年鉴或者相关部门公布的权威指标数据，主要有2017年各省会城市、副省级城市、计划单列市、地级市国民经济和社会发展统计公报。

3.缺失数据处理

对于缺失的数据主要有两种处理方法：（1）报告中，有些城市的统计指标各个年度出现变化，一些指标在2017年统计公报中找不到数据，使用了2016年公报中的数据。（2）在使用第一种数据处理方法后仍未能够对数据进行补全的，取所在省（区）该指标平均值的方法进行补全，第二种方法主要体现在地级市民生发展报告中。

4.逆向指标处理

在本报告的中国民生发展指数4.0指标体系中，共有25个三级指标，其中正向指标20个，逆向指标5个。在对指标数据进行无量纲化之前，必须对逆向指标数据进行处理，将其转变为正向指标，以方便统一测算。依据各逆向指标的实际含义和表征内容，对于比值类的指标数据，本报告采取了取其倒数的方法将其转化为正向指标；对于百分率类的指标，则主要通过公式“100-指标值”即求补法来将其正向化，基本原则是保证正向化后的指标仍有明确、具体的实际含义和表征内容，不影响用其进行测算和分析。各逆向指标具体的正向化操作方法可参见表7-2。

表7-2 逆向指标处理

5.数据无量纲化

7.3.2 测算方法

本报告结合国内外通用规则以及报告的具体目标，拟采用综合评价指数法对我国区域民生发展水平进行评价。综合指数法分为线性加权模型、乘法评价模型、加乘混合评价模型等几种形式。本报告的指标体系中各指标的重要程度较大，指标值的差异不大，且各个指标间基本相互独立，各指标只影响综合评价值而指标之间不相互影响，因此采用线性加权模型进行计算。为了保证测度结果的客观公正，所有指标口径概念均与国家统计局相关统计制度保持一致。各指标的权重由德尔菲法确定，并将在测算结果的具体分析中加以具体说明。