
大数据环境下如何进行数据挖掘?
大数据的核心:数据挖掘。那么大数据环境下如何进行数据挖掘?
什么是数据挖掘?
是知识发现、商业智能、预测分析还是预测建模。其实都可以归为一类:数据挖掘是一项探测大量数据以发现有意义的模式(pattern)和规则(rule)的业务流程。
数据挖掘成功的关键是把其结合到业务流程中,并能够促进数据挖掘人员和使用结果的业务用户之间的通信。首先,必须明确,找到合适的业务需求,很多的人员,没有在意这一点,导致解决的是对业务没有帮助的问题。
时间帧:
模型集中的每个变量都有一个与它相关的时间帧,它描述了该变量产生作用的时间段。可以理解为对在过去一段时间的数据的整合,超过这个时间的数据就作废。
预测模型:
很多数据挖掘问题都可以概括为预测问题:基于过去的响应,基于过去的相应,谁将会有相应?基于过去的注销记录,谁有一个不良风险?解决问题最好的办法是限定输入变量严格产生于目标变脸之前。
剖析模型:
剖析,从字面上的理解是,基于人口统计变量,例如:地理位置、性别和年龄等。剖析模型能发现同一条件下的关系,但他们不能指出原因和影响。出于这个原因,剖析模型经常使用客户的人口统计信息作为输入,而把客户行为作为目标,在这种情况下,确定原因和影响更直观。
把业务问题转换为数据挖掘问题
·选择合适的数据
·认识数据
·创建一个模型集
修复问题数据
·转换数据以揭示信息
·构建模型
评估模型
部署模型
评估结果
重新开始
