HBDML 机器学习平台

　　机器学习平台支持用户通过拖拽的方式自定义数据处理流程，实现数据的预处理，同时可以在执行每步流程之后查看当前流程的中间结果数据，用户可以从这些结果中获取大量信息，并将这些结果数据用于模型建立和预测。建立好模型以后，可以选择相应类型的数据进行预测。

大数据平台的架构将数据分层管理，在各层提供数据开放接口，以满足不同数据需求，更有效支撑数据合作运营。同时海量的历史数据能促使合作在第一时间就开展起来。

Spark启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。尽管创建Spark是为了支持分布式数据集上的迭代作业，但是实际上它是对Hadoop的补充，可以在Hadoop文件系统中并行运行。

机器学习平台支持集群中原有的规模不足时的系统扩容。Spark和Hadoop平台很容易实现添加新节点到已有集群，操作简单。

大数据在全量数据之上进行数据分析，利用机器学习技术和算法建模，实现对数据的实时分析，能够帮助企业完全勾勒出每个个体客户的DNA，新的Key/Value形式的存储结构摆脱了对维度的限制，可以更加方便的进行数据挖掘分析。

逻辑回归、支持向量机、朴素贝叶斯、神经网络、随机森林、决策树、梯度提升决策树

Association Rules、频繁模式增长算法

PyLearn2、MLPC、Deep Learning

线性回归、广义线性回归、保序回归、支持向量机

主成分分析、奇异值分解

特征选择、标准化、正则化、词频-逆向文件频率

K-Means、最大期望算法、快速迭代聚类、混合高斯模型、线性判别分析

随机梯度下降、有限内存BFGS

沈阳昊宸科技有限公司