“大数据”,研讨机构给出的定义是需求新处置形式才干具有更强的决策力、洞察发现力和流程优化才能的海量、高增长率和多样化的信息资产。在往常这个大数据时期中,很多人在做大数据过程中还是会遇到这样那样的问题。下面礼品代发网为大家停止清点。
1、要做数据剖析,首先要有数据
有些场景下,数据没法考业务积聚,需求依赖于外部,假如有现成的外部数据,就能够直接拷贝过来直接运用,但是很多时分都是需求本人获取的。
2、最早的数据剖析可能就报表
目前很多数据剖析后的结果,展现的方式很多,有各种图形以及报表展现一下数据。但是数据量大起来怎样剖析呢?数据剖析完了怎样做传输呢?这么大的数据量怎样做到实时呢?剖析的结果数据假如不是很大还行,假如剖析的结果数据还是很大改怎样办呢?
3、数据量大了,无法在线剖析了,咋办呢?
这个时分,数据量曾经大的无法用在线执行SQL的方式停止统计剖析了。这个时分顺应时期的东西产生了,数据离线数据工具hadoop出来了。你可能需求构建一个hadoop集群,然后把本人的文件导入到集群上面去,然后假如要做统计剖析,需求写mapreduce程序。剖析后的结果还是文件的方式产生。
4、空间的数据怎样剖析
关于我们电子商务而言,空间数据可能就是海量的收货地址数据了。需求做剖析,第一步就是先要把经纬度添加到数据中,之后空间数据是二维的,但是我们常见的代数是一维的,这个时分一个重要的算法呈现了,geohash算法,一种将经纬度数据转换为一个可比拟,可排序的字符串的算法。然后,这样就能够再空间间隔方面停止剖析了。
5、数据产生的结果,怎样搞到线上提供效劳的数据库中呢?
这个时分剖析的结果有了,可能是一个很宽很长的excel表格,需求导入到线上的数据库中,但是数据源可能有多了,依照笛卡尔积的方式,这样搞要搞死程序员了。这个时分就需求datax来完成异构数据源的导入和导出,采用插件的方式设计,可以支持将来的数据源。假如需求导数据,配置一下datax的xml文件或者在web页面上点击下就能够完成了。
6、剖析的结果数据特别大,在线恳求这些结果数据扛不住了,怎样办?
普通的结果数据,数据量没有那么大,有时会有几十万以至是千万或者亿级别,同时有复杂的SQL查询,这个时分mysql肯定就扛不住了。这个时分,可能需求构建索引,或者用散布式的内存效劳器来完成查询。总之,两套思绪,一个是用文件索引的方式,说白来就是空间换时间,另外一种是用内存,就是用更快的存储来抗恳求。
置信以上的剖析和办法可以为大家处理在做大数据时遇到的一些常见问题,对大家的工作有所助益。
猜你喜欢