平台简介

HBDML 机器学习平台

  机器学习平台支持用户通过拖拽的方式自定义数据处理流程,实现数据的预处理,同时可以在执行每步流程之后查看当前流程的中间结果数据,用户可以从这些结果中获取大量信息,并将这些结果数据用于模型建立和预测。建立好模型以后,可以选择相应类型的数据进行预测。

大数据平台的架构将数据分层管理,在各层提供数据开放接口,以满足不同数据需求,更有效支撑数据合作运营。同时海量的历史数据能促使合作在第一时间就开展起来。

Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。尽管创建Spark是为了支持分布式数据集上的迭代作业,但是实际上它是对Hadoop的补充,可以在Hadoop文件系统中并行运行。

机器学习平台支持集群中原有的规模不足时的系统扩容。Spark和Hadoop平台很容易实现添加新节点到已有集群,操作简单。

大数据在全量数据之上进行数据分析,利用机器学习技术和算法建模,实现对数据的实时分析,能够帮助企业完全勾勒出每个个体客户的DNA,新的Key/Value形式的存储结构摆脱了对维度的限制,可以更加方便的进行数据挖掘分析。

平台特点

全量数据建模

针对大量异构、多态、以指数级增长的数据,可进行全量数据的分析及模型的构建

接口支持

全方位支持各种数据接口,集成数据转化及预处理功能;提供实时、非实时统一接口,应用于企业各种业务

权威技术支持

基于R、Python、H2O对历史数据进行挖掘分析、建模;基于Spark实现全量数据的模型训练、验证、评估;

完善的计算模式

采用内存计算结合并行计算的模式,能够在大规模的集群上运行

多种算法支持

分类算法

逻辑回归、支持向量机、朴素贝叶斯、神经网络、随机森林、决策树、梯度提升决策树

关联规则

Association Rules、频繁模式增长算法

深度学习

PyLearn2、MLPC、Deep Learning

回归算法

线性回归、广义线性回归、保序回归、支持向量机

属性筛选

主成分分析、奇异值分解

特征抽取和转换

特征选择、标准化、正则化、词频-逆向文件频率

聚类算法

K-Means、最大期望算法、快速迭代聚类、混合高斯模型、线性判别分析

推荐算法

交替最小二乘法

优化算法

随机梯度下降、有限内存BFGS