简单训练 - Amazon Redshift
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

简单训练

您可以使用简单的 CREATE MODEL 命令导出训练数据、训练模型、导入模型和准备 Amazon Redshift 预测函数。使用 CREATE MODEL 语句可将训练数据指定为表或 SELECT 语句。

以下示例使用来自 Machine Learning 数据集的加利福尼亚州 Irvine 存储库的公开可用的客户流失预测数据集。移动运营商有历史记录,客户最终最终才会流失并继续使用该服务。该示例使用此历史信息通过称为训练的过程来构建一个移动操作员的流失的Machine Learning模型。训练模型之后,将使用任意客户的配置文件信息来训练模型。然后,Amazon Redshift 将此信息传递到模型并使用模型来预测此客户是否会流失。此示例的数据集在 Customer activity file (客户活动文件) 中提供。

CREATE MODEL customer_churn_auto_model FROM (SELECT state, account_length, area_code, total_charge/account_length AS average_daily_spend, cust_serv_calls/account_length AS average_daily_cases, churn FROM customer_activity WHERE record_date < '2020-01-01') TARGET churn FUNCTION ml_fn_customer_churn_auto IAM_ROLE 'arn:aws:iam::XXXXXXXXXXXX:role/Redshift-ML' SETTINGS ( S3_BUCKET 'your-bucket' );

SELECT 查询创建训练数据。TARGET 子句指定哪个列是 CREATE MODE 用来学习如何进行预测的 Machine Learning “标签”。其余列是用于预测的功能(输入)。在此示例中,训练数据为在 2020-01-01 之前具有账户的客户提供特征状态、account_length、rea_code、平均每日支出和平均每日案例。为了简化,客户在订阅的同一天取消订阅的可能性将被忽略。目标列“churn”指示客户是否仍具有活动成员资格或已暂停该成员资格。

CREATE MODEL 分析输入特征与“活动”结果之间的关联,以提供预测客户是否将处于活动状态的模型,使用客户的年龄、邮政编码、支出和案例等输入。

在后台,Amazon Redshift 通常使用 Amazon SageMaker Autopilot 进行训练。具体而言,Amazon Redshift 将安全地导出客户指定的 Amazon S3 存储桶中的训练数据。如果您不指定 KMS_KEY_ID,则默认情况下使用服务器端加密 SSE-S3 对数据进行加密。您还需要提供 IAM_ROLE 角色来访问 Amazon S3 和 Amazon SageMaker。首先,您已准备好所有要求。然后,使用 CREATE MODEL 语句。此时,Amazon Redshift 可以立即开始使用 Amazon SageMaker 来针对您的问题类型训练和优化最佳模型。

CREATE MODEL 命令以异步模式运行,并在将训练数据导出到 Amazon S3 时返回。模型训练和编译的剩余步骤可能很耗时,并在后台继续。在此操作期间,您可以使用 STV_ML_MODEL_INFO 检查训练的状态。训练完成后,您可以使用 显示模型 检查模型信息。有关更多信息,请参阅 ML 如何与 Amazon Redshift 协同工作Amazon SageMaker.

有关 CREATE MODEL 的简单用法的语法和功能的摘要,请参阅简单创建模型