大数据背景下统计数据质量影响因素分析

发布时间:2018-06-25 来源: 幽默笑话 点击:

http://img1.qikan.com.cn/qkimages/zgjt/zgjt201815/zgjt20181531-1-l.jpg
  摘要:随着云计算技术概念的提出和逐步发展,社会经济正在进入大数据应用时代。大数据背景下,统计工作必须紧紧着眼于用户需求,提升统计数据的质量,更好地发挥统计数据的价值。
  关键词:大数据;数据统计;影响因素
  大数据的技术应用正在向各个行业渗透,未来的数据将会像石油一样成为重要的资源,推动社会的进步和发展。统计数据只有可靠,准确,及时才能为决策者提供合理的依据,因此保证统计数据的质量,在今天大数据时代显得尤为重要。大数据越来越呈现出海量,非结构化,实时,电子化处理和多元等特点,在数据的处理上带来了难度,数据质量上一些细微的问题将会通过大数据海量的样本被放大,导致严重的问题,这是当下大数据最需要解决的问题。

一、统计数据的质量


  (一)统计数据核心的转变
  在大数据的背景下,数据统计的核心正发生着变化。传统的数据统计对于数据的核心要求是“准确性”,统计数据要能真实反映发生的问题。而今天的数据统计最终是要向消费者服务的,数据统计的核心要求是“客户需求”。
  (二)统计数据的质量要求
  针对目前的大数据发展情况,马建光认为统计工作面临的最大挑战是海量的,多样的大数据获取和处理问题,它们决定着大数据的质量。如何解决这种问题,有关专家学者提出:要从技术,流程和管理三个方面入手进行相关问题探讨,而且对统计数据的质量评估也要进行多维度的验证,主要从逻辑规则检验、核算数据重估、计量模型分析、统计分布验证、调查偏差评估、多维评估延伸六个角度。
  大数据背景下,在统计数据的质量研究上国内外学者形成了共识:非技术因素中人为因素和环境因素是两大影响因素,非技术性因素在统计数据的质量上应该得到更多关注。大数据背景下,统计数据所呈现出来的特点使得统计数据质量问题极为复杂,这里面既有技术因素也存在非技术因素的作用。为了保证统计数据的质量,需要及时发现各种影响因素,并通过科学的方法将影响降到最低。

二、影响因素分析


  美国麻省理工学院的Richard Y.Wang教授提出了全面数据质量管理理论,他认为影响统计数据质量的主要影响因素是流程,技术和管理三个方面。图1展示了这种理论概念模型。
  (一)流程维度的影响
  从该维度对数据进行分析,主要从数据收集,数据存储,数据使用三个阶段来进行,这是数据的整个生命周期在不同阶段的处理功能。
  1. 数据收集阶段
  在数据收集的方式和统计标准上,大数据时代因为智能设备,传感器以及社交协作技术的应用和普及,使得数据的来源发生了很大的变化。
  如今网页,搜索引擎,社交媒体论坛,主动和被动系统传感器成为大数据的产生来源,海量数据的产生,让统计数据在广度上无限接近“总体”,这样的大数据收集明显地优势就是会增加统计的准确性,但是数据接触范围的扩大会带来许多以前未曾出现的问题。另一方面数据的时效性比以前大大缩短,而有效的数据收集,才能保证统计数据的质量,这也是一种新的挑战。
  2. 数据存储阶段
  传统的数据存储结构已经无法满足大数据存储的要求,大容量及高扩展性,高可用性,高性能和访问接口的多样性都要求改变单一的数据存储结构。
  现在的数据存在着大量视频,图片等非机构化数据,使用以往的存储要经过复杂的转换过程,将其转换为结构化的数据,但是这个过程不可避免地会出现转化方式不合适,直接导致数据的完整性和准确性。实现大数据效益的最大化就必须将这些非结构化的数据与结构化的数据有机结合,建设新型的数据库。
  3. 数据使用阶段
  大数据时代数据成为一种共享的资源,不再由某一个人或者某一个部门单独使用。数据的提取和更新愈加频繁,这中间的任何失误都将造成数据质量的下降。社会信息化的发展使得数据的产生和传播加快,许多事情的产生都是瞬息万变的,因此对数据进行及时处理分析,才能保证数据的价值不过期,作为决策者才能做出合适的决策。
  (二)技术维度的影响
  大数据技术包含数据库技术,数据质量检测识别和数据分析技术这三个方面,它是准确预测未来的保障,体现了数据分析的真正价值。
  1. 数据库技术
  企业数据在大数据时代最明显的特征就是数据量的增加,这种增加的速度是以往难以想象的,呈现出了指数级的增长。增长的内容既有信息量的增长,也有数据结构的增长,因此数据的统计越来越复杂。
  传统的数据检测技术在检测结构化的数据时很方便,但是非结构化数据的出现使得传统的检测技术出现了难以应对的情况。数据中错误,缺失,无效或延迟的情况时有发生,这极大地增加了检测的时间成本。企业需要配备更高端的检测设备,引进或者研发新技术来处理大数据,保证数据质量。
  2. 数据质量检测和识别技术
  数据质量的准确性,适用性和及时性检测依靠人工判断,会越来越难,必须引进有效的数据检测技术,及时发现数据存在的不足和缺陷,同时在实践中完善数据质量检测技术,满足大数据时代数据检测的要求。
  3. 大数据分析技术
  数据收集之后,经过分析才能得出数据的价值。可视化分析成为目前大数据分析技术中的主流,数据挖掘算法可以有效处理不同类型和格式的数据,对传统的数据分析进行完善和促进这些都是数据分析能力的提升。
  (三)管理维度的影响
  数据管理作为数据质量保证的重要一环,人在其中起到了決定性的作用。在这个维度中企业管理者的认识,专业数据库管理人员的配备,政府统计制度和统计数据标准是影响数据质量的四个重要因素。
  1. 管理者的认识
  重视首先需要认识其重要性。企业的管理者要充分认识到大数据对于企业发展的重要性,支持和重视大数据的建设,让大数据的应用有效落实到企业工作中,真正发挥大数据在企业决策中的作用,为企业提供正确地的发展方向。

相关热词搜索:统计数据 因素 质量 影响 分析

版权所有 蒲公英文摘 www.zhaoqt.net