本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
表格数据
表格数据是指可以加载到二维数据框中的数据。在数据框中,每行代表一条记录,每条记录都有一列或多列。每个数据框单元格内的值可以是数字、分类或文本数据类型。
表格数据集先决条件
在分析之前,您的数据集应该已经应用了任何必要的预处理步骤。这包括数据清理或特征工程。
您可以提供一个或多个数据集。如果您提供多个数据集,请使用以下方法在 Clarify 处理任务中 SageMaker 对其进行识别。
-
使用ProcessingInput命名配置
dataset
或分析配置dataset_uri
来指定主数据集。有关的更多信息dataset_uri
,请参阅中的参数列表分析配置文件。 -
使用分析配置文件中提供的
baseline
参数。SHAP分析需要基线数据集。有关分析配置文件的更多信息(包括示例),请参阅分析配置文件。
下表列出了支持的数据格式、其文件扩展名和MIME类型。
Data format(数据格式) | 文件扩展名 | MIME键入 |
---|---|---|
CSV |
csv |
|
JSON台词 |
jsonl |
|
JSON |
json |
|
Parquet |
parquet |
“application/x-parquet” |
以下各节显示了CSV、Lin JSON es 和 Apache Parquet 格式的表格数据集示例。
Cl SageMaker arify 处理任务旨在加载 csv.excel 方言\n
和 \r
。
为了兼容起见,提供给 Clarify SageMaker 处理任务的所有CSV数据文件都必须以 UTF -8 编码。
如果您的数据集不包含标题行,请执行以下操作:
-
将分析配置标签设置为索引
0
。这意味着第一列是 Ground Truth 标签。 -
如果设置了参数
headers
,则将label
设置为标签列标题以指示标签列的位置。所有其他列都指定为特征。以下是不包含标题行的数据集示例。
1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...
如果您的数据包含标题行,请将参数 label
设置为索引 0
。要指示标签列的位置,请使用 Ground Truth 标签标题 Label
。所有其他列都指定为特征。
以下是包含标题行的数据集示例。
Label,Rating,A12,A13,Comments 1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...
JSON是一种灵活的格式,用于表示包含任何复杂程度的结构化数据。C SageMaker lar JSON ify 对的支持不限于任何特定的格式,因此与CSV或JSON线格式的数据集相比,允许更灵活的数据格式。本指南向您介绍如何为JSON格式的表格数据设置分析配置。
注意
为确保兼容性,提供给 Clarify 处理 SageMaker 作业的所有JSON数据文件都必须以 UTF -8 编码。
以下是输入数据的示例,其记录包含顶层键、特征列表和标签。
[ {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}, {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}, ... ]
先前输入示例数据集的示例配置分析应设置以下参数:
-
该
label
参数应使用JMESPath表达式 [*].label
来提取数据集中每条记录的基本真相标签。该JMESPath表达式应生成标签列表,其中第 i 个标签对应于第 i 条记录。 -
features
参数应使用JMESPath表达式[*].features
为数据集中的每条记录提取特征数组。该JMESPath表达式应生成一个二维数组或矩阵,其中第 i 行包含与第 i 条记录对应的特征值。以下是输入数据的示例,其记录包含顶层键和嵌套键,嵌套键包含每条记录的特征和标签列表。
{ "data": [ {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}}, {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}} ] }
先前输入示例数据集的示例配置分析应设置以下参数:
-
该
label
参数使用JMESPath表达式 data[*].label
提取数据集中每条记录的真实情况标签。该JMESPath表达式应生成标签列表,其中第 i 个标签用于第 i 个记录。 -
该
features
参数使用JMESPath表达式data[*].features
为数据集中的每条记录提取要素数组。该JMESPath表达式应生成一个 2D 数组或矩阵,其中第 i 行包含第 i 条记录的特征值。
JSONLines 是一种文本格式,用于表示结构化数据,其中每行都是有效JSON对象。目前,C SageMaker larify 处理作业仅支持 SageMaker 密集格式JSON行。为了符合要求的格式,记录的所有特征都应在一个JSON数组中列出。有关JSON线路的更多信息,请参阅JSONLINES请求格式。
注意
为确保兼容性,提供给 Clarif SageMaker y 处理任务的所有 Lin JSON es 数据文件都必须以 UTF -8 编码。
以下示例说明如何为包含顶层键和元素列表的记录设置分析配置。
{"features":[1,5,2.8,2.538,"This is a good product"],"label":1} {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0} ...
先前数据集示例的配置分析应按以下方式设置参数:
-
要指示真实情况标签的位置,
label
应将参数设置为JMESPath表达式label
。 -
要指示要素数组的位置,
features
应将参数设置为JMESPath表达式features
。
以下示例说明如何为包含顶层键和嵌套键(其中包含元素列表)的记录设置分析配置。
{"data":{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}} {"data":{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}} ...
先前数据集示例的配置分析应按以下方式设置参数:
-
label
应将参数设置为JMESPath表达式data.label
,以指示真实情况标签的位置。 -
features
应将参数设置为JMESPath表达式data.features
以指示要素数组的位置。
Parquet1
。
由于 SageMaker Clarify 处理作业不支持 Parquet 格式的端点请求或端点响应,因此您必须通过将分析配置参数设置为支持的格式content_type
来指定端点请求的数据格式。有关更多信息,请参阅分析配置文件中的content_type
。
Parquet 数据的列名必须格式化为字符串。使用分析配置 label
参数设置标签列名称以指示 Ground Truth 标签的位置。所有其他列都指定为特征。