I 旗下网站
ITS WEBSITE
Data cleaning 大数据清洗整合

 

把采集而来的各种类型数据进行清理加工提高数据质量,然后把数据整合在一起便于后续的利用。

1.根据各行业对数据规范化标准,制定数据标准规则。再对数据进行抽取、净化、转换,清理出有利用价值、规范的数据。

2.数据清理的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取,最终形成完整、准确的数据。不符合要求的数据主要是有残缺数据、错误的数据、重复的数据三大类。如下:
 
①残缺数据处理

这一类数据主要是重要信息缺失。如国土房管行业数据清理工作中,房屋的主要属性:类型、户型、街道名称、面积、用途等等信息缺失,业务系统中主表与明细表不能匹配等。过滤出这一类数据,对缺失的信息内容进行补充。补充后写入数据仓库。

②错误数据处理

这一类错误产生的原因是由于人为或信息系统不够健全造成,在输入数据时,由于人员的原因录入错误、信息系统在接收输入后没有进行判断直接写入后台数据库造成的。比如数值数据输成全角数字字符、字符串数据后面有回车操作、日期格式不正确、日期越界等。对这一类数据,通过技术手段进行提取,并通过技术、人工对数据进行修复。
③重复数据处理

对于这一类数据——特别是维表中会出现这种情况,相同的数据,在后台数据库中存在多条或多个数据源中存在相同的数据,导致在对数据的统计分析时造成结果不准确。重复数据的问题通过技术手段将重复数据记录的所有字段抽取出来进行净化整理。

3.对数据净化清理后,将有效数据抽取出,导入成果数据仓库。