如何进行核心机器学习

Вас*_*кин 5 python machine-learning pandas google-cloud-storage tensorflow

我在Google云端存储中拥有大量数据集(csv;大约300 GB;客户的CRM数据),我打算创建一个模型来预测我们网站上客户的回归.

我正在评估几种替代方案:

处理和数据清理

通过pandas中的块读取数据; 使用pandas方法和其他python库清理数据并创建功能;
在numpy数组中逐行读取数据; 清理数据并使用python创建功能(没有pandas方法)

机器学习

使用一些scikit-learn方法(http://scikit-learn.org/stable/modules/scaling_strategies.html)进行数据拟合的增量学习.
Vowpal Wabbit
TensorFlow(例如逻辑回归)

从硬件方面来看,我的服务器具有8 GB RAM,并且可以访问小型(标准)Google Cloud实例.此外,我将自动执行此任务,并为日常预测创建一些数据管道.以前,我使用Pandas + Scikit学习机器学习,但在这个问题中数据不适合内存.

我应该采取哪种方法来完成这项任务？
是否有一些树算法用于增量学习(Gradient Boosting,Random Forest)？它们更为可取,因为它们具有良好的性能而无需大量数据准备和扩展.

归档时间：	9 年，7 月前
查看次数：	652 次
最近记录：	9 年，6 月前

熊猫和AWS Lambda 21

使用$将货币转换为Python pandas中的数字 20

Pandas合并返回空数据帧 10

四舍五入序列中的值时，decimal.InvalidOperation错误 6

修剪专家系统的扣减 5

LibSVM中的标称属性 5

如何获取每行pandas数据帧中特定值的频率 5

（误）-使用 open.ai Whisper 进行文本到文本的翻译 5

Tensorflow中Estimator中的自定义eval_metric_ops 4

在 Windows 虚拟环境中使用 TensorFlow 和 TensorFlow 数据集时出现“没有名为‘资源’的模块”错误 4

如何使用scp将文件夹从远程复制到本地？ 2562

Dockerfile中的`COPY`和`ADD`命令有什么区别？ 1991

如何在Git中检索当前提交的哈希值？ 1788

比较Java枚举成员:==或equals()？ 1645

'real','user'和'sys'在time(1)的输出中意味着什么？ 1622

如何在git历史中grep(搜索)已提交的代码？ 1342

Python字符串格式:%vs. .format 1323

为什么自闭脚本标签不起作用？ 1284

如何在JavaScript中创建二维数组？ 1081

"正确"的JSON日期格式 1071