PySpark 分机类型 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

PySpark 分机类型

用于 AWS Glue PySpark 分机。

DataType

其他 AWS Glue 类型的基类。

__init__(properties={})

  • properties – 数据类型的属性(可选)。

typeName(cls)

返回 AWS Glue 类型类的类型(即,类名,其“Type”会从末尾删除)。

  • cls – 一种 AWS Glue 类实例派生自 DataType.

jsonValue( )

返回一个包含类的数据类型和属性的 JSON 对象:

{ "dataType": typeName, "properties": properties }

AtomicType 和简单衍生产品

继承自并扩展 DataType 类,并且充当所有 AWS Glue 原子数据类型的基类。

fromJsonValue(cls, json_value)

使用 JSON 对象中的值初始化类实例。

  • cls – 一种 AWS Glue 键入类实例以初始化。

  • json_value – 从加载键值对的JSON对象。

以下类型是 AtomicType 类的简单衍生:

  • BinaryType – 二进制数据。

  • BooleanType – 布尔值。

  • ByteType – 字节值。

  • DateType – 日期时间值。

  • DoubleType – 浮点双值。

  • IntegerType – 一个整数值。

  • LongType – 长整数值。

  • NullType – 空值。

  • ShortType – 短整数值。

  • StringType – 文本字符串。

  • TimestampType – 时间戳值(通常以秒为单位,自1970年1月1日起)。

  • UnknownType – 未标识类型的值。

DecimalType(原子类型)

继承自并扩展 AtomicType 类以表示十进制数字 (以十进制数字表示的数字,与二进制以 2 为底数的数字相对)。

__init__(precision=10, scale=2, properties={})

  • precision – 小数位数(可选;默认值为10)。

  • scale – 小数点右侧的位数(可选;默认值为2)。

  • properties – 小数的属性(可选)。

EnumType(原子类型)

继承自并扩展 AtomicType 类以表示有效选项的枚举。

__init__(options)

  • options – 正在枚举的选项的列表。

 集合类型

ArrayType(数据类型)

__init__(elementType=UnknownType(), properties={})

  • elementType – 数组中的元素类型(可选;默认值为 UnknownType)。

  • properties – 阵列的属性(可选)。

ChoiceType(数据类型)

__init__(choices=[], properties={})

  • choices – 可能的选择列表(可选)。

  • properties – 这些选项的属性(可选)。

add(new_choice)

将新选项添加到可能的选项列表中。

  • new_choice – 添加到可能选项列表的选项。

merge(new_choices)

将新选项列表与现有选项列表合并。

  • new_choices – 要与现有选项合并的新选项列表。

MapType(数据类型)

__init__(valueType=UnknownType, properties={})

  • valueType – 地图中的值类型(可选;默认值为 UnknownType)。

  • properties – 地图的属性(可选)。

Field(Object)

根据从 DataType 派生的对象创建一个字段对象。

__init__(name, dataType, properties={})

  • name – 要分配给字段的名称。

  • dataType – 从创建字段的对象。

  • properties – 字段的属性(可选)。

StructType(数据类型)

定义数据结构 (struct)。

__init__(fields=[], properties={})

  • fields – 字段列表(类型 Field)包含在结构中(可选)。

  • properties – 结构的属性(可选)。

add(field)

  • field – 类型对象 Field 以添加到结构中。

hasField(field)

如果此结构具有同名字段,则返回 True,否则返回 False

  • field – 字段名称或类型对象 Field 其名称。

getField(field)

  • field – 字段名称或类型对象 Field 其名称。如果此结构具有同名字段,则返回它。

EntityType(数据类型)

__init__(entity, base_type, properties)

此类尚未实现。

 其他类型

DataSource(对象)

__init__(j_source, sql_ctx, name)

  • j_source – 数据源。

  • sql_ctx – SQL上下文。

  • name – 数据源名称。

setFormat(format, **options)

  • format – 为数据源设置的格式。

  • options – 为数据源设置的选项集合。

getFrame()

为数据源返回 DynamicFrame

DataSink(对象)

__init__(j_sink, sql_ctx)

  • j_sink – 用于创建的接收器。

  • sql_ctx – 数据接收器的SQL上下文。

setFormat(format, **options)

  • format – 要为数据接收器设置的格式。

  • options – 为数据接收器设置的一系列选项。

setAccumulableSize(size)

  • size – 要设置的可累积大小,以字节为单位。

writeFrame(dynamic_frame, info="")

  • dynamic_frame – 的 DynamicFrame 写入。

  • info – 有关 DynamicFrame (可选)。

write(dynamic_frame_or_dfc, info="")

写入 DynamicFrameDynamicFrameCollection

  • dynamic_frame_or_dfc – 或者 DynamicFrame 对象或 DynamicFrameCollection 要写入的对象。

  • info – 有关 DynamicFrameDynamicFrames 写入(可选)。