Class RelationalGroupedDataset

A set of methods for aggregations on a DataFrame, created by [[Dataset#groupBy groupBy]], [[Dataset#cube cube]] or [[Dataset#rollup rollup]] (and also pivot).

Index

Constructors

constructor

new RelationalGroupedDataset(
    df: DataFrame,
    groupingExprs: string[] | Column[],
    groupType: GroupType,
    pivotValue?: undefined | Aggregate_Pivot,
    groupingSets?: Column[][],
): RelationalGroupedDataset
Parameters
- df: DataFrame
- groupingExprs: string[] | Column[]
- groupType: GroupType
- pivotValue: undefined | Aggregate_Pivot = undefined
- groupingSets: Column[][] = []
Returns RelationalGroupedDataset
- Defined in src/org/apache/spark/sql/RelationalGroupedDataset.ts:51

Properties

`Readonly`df

df: DataFrame

`Readonly`groupingExprs

groupingExprs: string[] | Column[]

`Readonly`groupType

groupType: GroupType

`Readonly`pivotValue

pivotValue: undefined | Aggregate_Pivot = undefined

`Readonly`groupingSets

groupingSets: Column[][] = []

Methods

toDF

toDF(...aggExprs: Column[]): DataFrame
Parameters
- ...aggExprs: Column[]
Returns DataFrame
- Defined in src/org/apache/spark/sql/RelationalGroupedDataset.ts:59

count

count(): DataFrame
Returns DataFrame
- Defined in src/org/apache/spark/sql/RelationalGroupedDataset.ts:78

sum

sum(...cols: string[]): DataFrame
Parameters
- ...cols: string[]
Returns DataFrame
- Defined in src/org/apache/spark/sql/RelationalGroupedDataset.ts:82

avg

avg(...cols: string[]): DataFrame
Parameters
- ...cols: string[]
Returns DataFrame
- Defined in src/org/apache/spark/sql/RelationalGroupedDataset.ts:87

mean

mean(...cols: string[]): DataFrame
Parameters
- ...cols: string[]
Returns DataFrame
- Defined in src/org/apache/spark/sql/RelationalGroupedDataset.ts:91

min

min(...cols: string[]): DataFrame
Parameters
- ...cols: string[]
Returns DataFrame
- Defined in src/org/apache/spark/sql/RelationalGroupedDataset.ts:95

max

max(...cols: string[]): DataFrame
Parameters
- ...cols: string[]
Returns DataFrame
- Defined in src/org/apache/spark/sql/RelationalGroupedDataset.ts:99

first

first(...cols: string[]): DataFrame
Parameters
- ...cols: string[]
Returns DataFrame
- Defined in src/org/apache/spark/sql/RelationalGroupedDataset.ts:103

last

last(...cols: string[]): DataFrame
Parameters
- ...cols: string[]
Returns DataFrame
- Defined in src/org/apache/spark/sql/RelationalGroupedDataset.ts:107

stddev

stddev(...cols: string[]): DataFrame
Parameters
- ...cols: string[]
Returns DataFrame
- Defined in src/org/apache/spark/sql/RelationalGroupedDataset.ts:111

stddevPop

stddevPop(...cols: string[]): DataFrame
Parameters
- ...cols: string[]
Returns DataFrame
- Defined in src/org/apache/spark/sql/RelationalGroupedDataset.ts:115

stddevSamp

stddevSamp(...cols: string[]): DataFrame
Parameters
- ...cols: string[]
Returns DataFrame
- Defined in src/org/apache/spark/sql/RelationalGroupedDataset.ts:119

variance

variance(...cols: string[]): DataFrame
Parameters
- ...cols: string[]
Returns DataFrame
- Defined in src/org/apache/spark/sql/RelationalGroupedDataset.ts:123

varPop

varPop(...cols: string[]): DataFrame
Parameters
- ...cols: string[]
Returns DataFrame
- Defined in src/org/apache/spark/sql/RelationalGroupedDataset.ts:127

varSamp

varSamp(...cols: string[]): DataFrame
Parameters
- ...cols: string[]
Returns DataFrame
- Defined in src/org/apache/spark/sql/RelationalGroupedDataset.ts:131

collect_list

collect_list(...cols: string[]): DataFrame
Parameters
- ...cols: string[]
Returns DataFrame
- Defined in src/org/apache/spark/sql/RelationalGroupedDataset.ts:135

collect_set

collect_set(...cols: string[]): DataFrame
Parameters
- ...cols: string[]
Returns DataFrame
- Defined in src/org/apache/spark/sql/RelationalGroupedDataset.ts:139

agg

agg(exprs: Record<string, string>): DataFrame
Parameters
- exprs: Record<string, string>
Returns DataFrame
- Defined in src/org/apache/spark/sql/RelationalGroupedDataset.ts:143
agg(...exprs: Column[]): DataFrame
Parameters
- ...exprs: Column[]
Returns DataFrame
- Defined in src/org/apache/spark/sql/RelationalGroupedDataset.ts:144

pivot

pivot(pivotColumn: string | Column, values?: any[]): RelationalGroupedDataset
Pivots a column of the current DataFrame and performs the specified aggregation.

This method is only supported after a groupBy operation. There are two versions of pivot: one with explicit pivot values and one without.
Parameters
- pivotColumn: string | Column
  Column name or Column to pivot on
- Optionalvalues: any[]
  Optional list of values that will be translated to columns in the output DataFrame
Returns RelationalGroupedDataset
A new RelationalGroupedDataset with pivot configuration
Example
```
// Pivot without values (Spark will compute distinct values)
df.groupBy("year").pivot("course").sum("earnings")

// Pivot with explicit values (more efficient)
df.groupBy("year").pivot("course", ["dotNET", "Java"]).sum("earnings")
```
- Defined in src/org/apache/spark/sql/RelationalGroupedDataset.ts:181

typedrel

groupMap

groupMap(
    pythonCode: string,
    outputSchema: StructType,
    pythonVersion?: string,
): DataFrame
Apply a function to each group of the DataFrame.

This method applies a user-defined function to each group. The function receives the group key and an iterator of rows for that group, and should return an iterator of rows.
Parameters
- pythonCode: string
  Python code as a string defining the group processing function
- outputSchema: StructType
  The output schema for the transformed DataFrame
- pythonVersion: string = '3.11'
  Python version (default: '3.11')
Returns DataFrame
A new DataFrame with the function applied to each group
Example
```
const pythonCode = `
def group_func(key, rows):
    total = sum(row.value for row in rows)
    yield (key.category, total)
`;
const schema = DataTypes.createStructType([
  DataTypes.createStructField('category', DataTypes.StringType, false),
  DataTypes.createStructField('total', DataTypes.IntegerType, false),
]);
const result = df.groupBy('category').groupMap(pythonCode, schema);
```
- Defined in src/org/apache/spark/sql/RelationalGroupedDataset.ts:228

Class RelationalGroupedDataset

Index

Constructors

Properties

Methods

typedrel

Constructors

constructor

Parameters

Returns RelationalGroupedDataset

Properties

Readonlydf

ReadonlygroupingExprs

ReadonlygroupType

ReadonlypivotValue

ReadonlygroupingSets

Methods

toDF

Parameters

Returns DataFrame

count

Returns DataFrame

sum

Parameters

Returns DataFrame

avg

Parameters

Returns DataFrame

mean

Parameters

Returns DataFrame

min

Parameters

Returns DataFrame

max

Parameters

Returns DataFrame

first

Parameters

Returns DataFrame

last

Parameters

Returns DataFrame

stddev

Parameters

Returns DataFrame

stddevPop

Parameters

Returns DataFrame

stddevSamp

Parameters

Returns DataFrame

variance

Parameters

Returns DataFrame

varPop

Parameters

Returns DataFrame

varSamp

Parameters

Returns DataFrame

collect_list

Parameters

Returns DataFrame

collect_set

Parameters

Returns DataFrame

agg

Parameters

Returns DataFrame

Parameters

Returns DataFrame

pivot

Parameters

Returns RelationalGroupedDataset

Example

typedrel

groupMap

Parameters

Returns DataFrame

`Readonly`df

`Readonly`groupingExprs

`Readonly`groupType

`Readonly`pivotValue

`Readonly`groupingSets