面向新手和专家的 Machine Learning - Amazon Redshift
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

面向新手和专家的 Machine Learning

Amazon Redshift ML 使您能够使用单个 SQL CREATE MODEL 命令训练模型。CREATE MODEL 命令创建一个模型,Amazon Redshift 使用该模型通过熟悉的 SQL 结构生成基于模型的预测。

Amazon Redshift ML 在机器学习 Machine Learning 方面没有专业知识时尤其有用。APIs 借助 Amazon Redshift ML,您无需执行与外部 Machine Learning 服务集成所需的任何无差别的繁重工作。Amazon Redshift 可为您节省设置数据格式和移动数据、管理权限控制或构建自定义集成、工作流程和脚本所需的时间。您可以轻松使用常用的 Machine Learning 算法并简化需要频繁迭代从训练到预测的训练需求。Amazon Redshift 自动发现最佳算法并针对您的问题优化最佳模型。您只需在 Amazon Redshift 集群内进行预测,而无需将数据移出 Amazon Redshift,也不需要与 交互并支付其他服务费用。了解有关如何轻松训练模型和使用 简单训练 中的预测的更多信息。

虽然 Amazon Redshift ML 使数据分析师和数据科学家能够使用 Machine Learning ,但它也允许 Machine Learning 专家使用其知识来指导 CREATE MODEL 仅使用他们指定的方面。通过这样做,您可以缩短 CREATE MODEL 查找最佳候选项和/或提高模型准确性所需的时间。

CREATE MODEL 语句为如何指定用于训练作业的参数带来了灵活性。这使Machine Learning新用户或专家用户能够选择其首选预处理器、算法、问题类型或超参数。例如,对客户流失感兴趣的用户可能会在 CREATE MODEL 语句中指定问题类型是适合客户流失的二进制分类。然后,CREATE MODEL 语句将它对最佳模型的搜索缩小到二进制分类模型中。即使选择了问题类型的用户,CREATE MODEL 语句仍可使用许多选项。例如,CREATE MODEL 发现并应用最佳预处理转换,并发现最佳超参数设置。

下面介绍了使用 Machine Learning 机器学习Amazon Redshift的不同方法:

  • 作为机器学习Machine Learning,通过全面了解机器学习Machine Learning 然后,您可以缩短 CREATE MODEL 查找最佳候选项或提高模型准确性所需的时间。此外,您还可以通过引入额外的领域知识 (如问题类型或目标) 来提高预测的业务价值。例如,在客户流失场景中,如果结果“客户未处于活动状态”很少见,则 F1 目标通常优先于准确性目标。由于高准确性模型可能始终预测“客户是活动的”,因此这会导致高准确性,但带来很小的业务价值。有关 F1 目标的信息,请参阅 AutoMLJobObjective 中的 Amazon SageMaker API 参考

    有关 CREATE MODEL 语句的基本选项的更多信息,请参阅简单创建模型

  • 作为机器学习Machine Learning,您可以为某些(但不是全部)功能指定问题类型和预处理器。然后,CREATE MODEL 将遵循您对指定方面的建议,而 CREATE MODEL 仍会发现其余功能和最佳超参数的最佳预处理器。有关如何限制训练管道的一个或多个方面的更多信息,请参阅具有用户指导的 CREATE MODEL

  • 作为机器学习Machine Learning,您可以完全控制预处理、训练和超参数优化。然后,CREATE MODEL 语句不会尝试发现最佳的预处理器、算法和超参数,因为您做出所有选择。有关如何将 CREATE MODEL 语句与 AUTO OFF 结合使用的更多信息,请参阅使用 AUTO OFF 创建 XGBoost 模型

Amazon Redshift ML 通过使用 Amazon SageMaker Autopilot 来自动查找最佳模型,以使训练过程变得轻松。在后台,Amazon SageMaker Autopilot 会自动根据您提供的数据训练和优化最佳的 Machine Learning 模型。Amazon SageMakerNeo 随后编译训练模型,并将其用于 Amazon Redshift 集群中的预测。当您使用训练模型运行 Machine Learning 推理查询时,查询可以使用所有 Amazon Redshift 大规模并行处理功能以及 Machine Learning 基于预测能力。