《【研报】房地产行业数列天下~5000万套新房数据如是说:交付增速精装修率物业费和其他-20200102[22页].pdf》由会员分享,可在线阅读,更多相关《【研报】房地产行业数列天下~5000万套新房数据如是说:交付增速精装修率物业费和其他-20200102[22页].pdf(22页珍藏版)》请在三个皮匠报告上搜索。
1、中信证券研究部中信证券研究部 张张全国全国 陈聪陈聪 张若海张若海 孙明新孙明新 罗鼎罗鼎 联系人:李金哲联系人:李金哲 2020年年1月月2日日 数列天下数列天下5000万万套新房数据如是说套新房数据如是说 交付增速,精装修率,物业费和其他交付增速,精装修率,物业费和其他 报告报告核核心工作心工作 2 核心工作及结论核心工作及结论 搜集搜房网、安居客的新房数据,建立了覆盖592个城市,开盘时间跨度为2014年到2021年,总计4万个新盘项目,项 目户数合计超过5000万户的样本项目。 对交付增速,竣工周期,精装修率,物业费等作了定量测算。 预计2020年竣工面积8.2亿平米,同比增长13%。
2、 竣工周期在4年内拉长4.3个月。 精装比例从2015年9%提升到2019年的24%,2021年这一数字有望达到38%。 目录目录 CONTENTS 3 1.数据获取:数数据获取:数源全源全量搜集,量搜集,多维交叉多维交叉验证验证 2.竣工前竣工前瞻:关键因素分析瞻:关键因素分析 3.下游策略:产业下游策略:产业链链数据进一步跟踪探索数据进一步跟踪探索 4 1.数据获取:数数据获取:数源全源全量搜集,量搜集,多维交叉验证多维交叉验证 I.数据采集数据采集:全量样本优势,数据具备前瞻:全量样本优势,数据具备前瞻 II.数据清理:数据清理:多源交叉验证,保证数据质量多源交叉验证,保证数据质量 数据
3、源说明数据源说明现有数据源缺乏前瞻性现有数据源缺乏前瞻性 国家统计局国家统计局 优点:官方数据源,权威可信,定期公布。 问题:T+20更新上月竣工历史数据,比较滞后;各项指标不存在勾稽关系。 上市公司公告上市公司公告 优点:前瞻性高,历史完成率在99%左右。 问题:企业一般在年报发布次年计划,比较之后;只有少数披露相对透明的公司会披露。 数据源优缺点对比数据源优缺点对比 数据源对比 国家统计局上市公司公告搜房网/安居客 更新频率月度年度月度或高频 前瞻性无(历史数据)有前瞻性(1年)更具前瞻性(1-2年) 准确性较好极好较好 搜集难度简单(结构化好)较难(数源分散)中等(有一定反爬) 数据源说
4、明数据源说明数据全量搜集数据全量搜集 6 第三方数据源第三方数据源 搜房网,字段包含在售项目名称、位置、开发商、房价、物业、物业费、楼栋数、总户数等; 安居客,项目数量更多,但是数据字段缺失较为严重。 采集说明采集说明 使用分布式数据采集架构。 搜房网:采集592个城市,开盘时间跨度为2014年到2021年,总计5.2万新盘项目,项目户数合计超过7000万户。 安居客:采集528个城市,开盘时间跨度为2014年到2021年,总计6.6万楼盘项目,项目户数合计超过8000万户。 数据价值数据价值 颗粒度颗粒度细细,包含楼盘详细信息,包括开盘时间,竣工时间,装修状况,物业费等; 前瞻性强前瞻性强,
5、跟踪Y+2数据,具备一定预测性; 通用性强通用性强,对房地产开发、物业管理、建材、家电家具等行业具有指导意义。 数据清理数据清理多源交叉验证,确保数据准确多源交叉验证,确保数据准确 7 数据清理:数据清理:促进促进数据挖掘数据挖掘 构建数据清理字典:头部开发商、物业公司字典;全国660个城市的字典(级别、省会、人口、GDP); 离群值处理:基于行业理解精准识别异常值,剔除数据噪音。 数据数据对齐:保证数据对齐:保证数据准确准确 单网站数据去重:基于模糊匹配规则,结合不同字段特性组合赋权,进行数据去重; 跨网站数据对齐:基于字符串相似性和语义相似性构建特征向量,使用分类模型判断数据是否是同一实体
6、。 升维方法:寻找关联变量升维方法:寻找关联变量 基于数据采集和数据清理构建样本数据。 样本数据、样本项目:覆盖592个城市,开盘时间跨度为2014年到2021年,总计4万个新盘项目,项目户数合计超过 5000万户。 以项目数据为基础,研究竣工面积增速、精装修率。 数据校验数据校验年度趋势和统计局数据有较强年度趋势和统计局数据有较强相似性相似性 8 2015年至2018年,统计局公布年度竣工面积在10亿平左右,样本数据合计竣工面积6亿平左右,我们认为样本数据覆盖度达 到60%,有一定代表意义; 对比样本数据和统计局发布数据的历史记录,年度竣工面积同比增速变化高度一致,我们判断,样本数据清理规则