grouping_operation, duplicates_removal: EXPLAIN FORMAT=JSON has all details about GROUP BY

In the previous EXPLAIN FORMAT=JSON is Cool! series blog post, we discussed the group_by_subqueries member (which is child of grouping_operation). Let’s now focus on the grouping_operation and other details of GROUP BY processing.

grouping_operation simply shows the details of what happens when the GROUP BY clause is run:

mysql> explain format=json select dept_no from dept_emp group by dept_noG
*************************** 1. row ***************************
EXPLAIN: {
  "query_block": {
    "select_id": 1,
    "cost_info": {
      "query_cost": "14.40"
    },
    "grouping_operation": {
      "using_filesort": false,
      "table": {
        "table_name": "dept_emp",
        "access_type": "range",
        "possible_keys": [
          "PRIMARY",
          "emp_no",
          "dept_no"
        ],
        "key": "dept_no",
        "used_key_parts": [
          "dept_no"
        ],
        "key_length": "4",
        "rows_examined_per_scan": 9,
        "rows_produced_per_join": 9,
        "filtered": "100.00",
        "using_index_for_group_by": true,
        "cost_info": {
          "read_cost": "12.60",
          "eval_cost": "1.80",
          "prefix_cost": "14.40",
          "data_read_per_join": "144"
        },
        "used_columns": [
          "emp_no",
          "dept_no"
        ]
      }
    }
  }
}
1 row in set, 1 warning (0.00 sec)

Note (Code 1003): /* select#1 */ select `employees`.`dept_emp`.`dept_no` AS `dept_no` from `employees`.`dept_emp` group by `employees`.`dept_emp`.`dept_no`

mysql> explain format=json select dept_no from dept_emp group by dept_noG

*************************** 1. row ***************************

EXPLAIN: {

"query_block": {

"select_id": 1,

"cost_info": {

"query_cost": "14.40"

"grouping_operation": {

"using_filesort": false,

"table": {

"table_name": "dept_emp",

"access_type": "range",

"possible_keys": [

"PRIMARY",

"emp_no",

"dept_no"

"key": "dept_no",

"used_key_parts": [

"dept_no"

"key_length": "4",

"rows_examined_per_scan": 9,

"rows_produced_per_join": 9,

"filtered": "100.00",

"using_index_for_group_by": true,

"cost_info": {

"read_cost": "12.60",

"eval_cost": "1.80",

"prefix_cost": "14.40",

"data_read_per_join": "144"

"used_columns": [

"emp_no",

"dept_no"

]

}

1 row in set, 1 warning (0.00 sec)

Note (Code 1003): /* select#1 */ select `employees`.`dept_emp`.`dept_no` AS `dept_no` from `employees`.`dept_emp` group by `employees`.`dept_emp`.`dept_no`

In the listing above, you can see which table was accessed by the GROUP BY operation, the access type, and if an index for GROUP BY was used.

In case of a simple JOIN of two tables, grouping_operation is usually a parent for the nested_loop object (which provides details on how the JOIN proceeded):

mysql> explain format=json select de.dept_no, count(dm.emp_no) from dept_emp de join dept_manager dm using(emp_no) group by de.dept_noG
*************************** 1. row ***************************
EXPLAIN: {
  "query_block": {
    "select_id": 1,
    "cost_info": {
      "query_cost": "61.50"
    },
    "grouping_operation": {
      "using_temporary_table": true,
      "using_filesort": true,
      "cost_info": {
        "sort_cost": "26.41"
      },
      "nested_loop": [
        {
          "table": {
            "table_name": "dm",
            "access_type": "index",
            "possible_keys": [
              "PRIMARY",
              "emp_no"
            ],
            "key": "emp_no",
            "used_key_parts": [
              "emp_no"
            ],
            "key_length": "4",
            "rows_examined_per_scan": 24,
            "rows_produced_per_join": 24,
            "filtered": "100.00",
            "using_index": true,
            "cost_info": {
              "read_cost": "1.00",
              "eval_cost": "4.80",
              "prefix_cost": "5.80",
              "data_read_per_join": "384"
            },
            "used_columns": [
              "dept_no",
              "emp_no"
            ]
          }
        },
        {
          "table": {
            "table_name": "de",
            "access_type": "ref",
            "possible_keys": [
              "PRIMARY",
              "emp_no",
              "dept_no"
            ],
            "key": "emp_no",
            "used_key_parts": [
              "emp_no"
            ],
            "key_length": "4",
            "ref": [
              "employees.dm.emp_no"
            ],
            "rows_examined_per_scan": 1,
            "rows_produced_per_join": 26,
            "filtered": "100.00",
            "using_index": true,
            "cost_info": {
              "read_cost": "24.00",
              "eval_cost": "5.28",
              "prefix_cost": "35.09",
              "data_read_per_join": "422"
            },
            "used_columns": [
              "emp_no",
              "dept_no"
            ]
          }
        }
      ]
    }
  }
}
1 row in set, 1 warning (0.00 sec)

Note (Code 1003): /* select#1 */ select `employees`.`de`.`dept_no` AS `dept_no`,count(`employees`.`dm`.`emp_no`) AS `count(dm.emp_no)` from `employees`.`dept_emp` `de` join `employees`.`dept_manager` `dm` where (`employees`.`de`.`emp_no` = `employees`.`dm`.`emp_no`) group by `employees`.`de`.`dept_no`

mysql> explain format=json select de.dept_no, count(dm.emp_no) from dept_emp de join dept_manager dm using(emp_no) group by de.dept_noG

*************************** 1. row ***************************

EXPLAIN: {

"query_block": {

"select_id": 1,

"cost_info": {

"query_cost": "61.50"

"grouping_operation": {

"using_temporary_table": true,

"using_filesort": true,

"cost_info": {

"sort_cost": "26.41"

"nested_loop": [

{

"table": {

"table_name": "dm",

"access_type": "index",

"possible_keys": [

"PRIMARY",

"emp_no"

"key": "emp_no",

"used_key_parts": [

"emp_no"

"key_length": "4",

"rows_examined_per_scan": 24,

"rows_produced_per_join": 24,

"filtered": "100.00",

"using_index": true,

"cost_info": {

"read_cost": "1.00",

"eval_cost": "4.80",

"prefix_cost": "5.80",

"data_read_per_join": "384"

"used_columns": [

"dept_no",

"emp_no"

]

}

{

"table": {

"table_name": "de",

"access_type": "ref",

"possible_keys": [

"PRIMARY",

"emp_no",

"dept_no"

"key": "emp_no",

"used_key_parts": [

"emp_no"

"key_length": "4",

"ref": [

"employees.dm.emp_no"

"rows_examined_per_scan": 1,

"rows_produced_per_join": 26,

"filtered": "100.00",

"using_index": true,

"cost_info": {

"read_cost": "24.00",

"eval_cost": "5.28",

"prefix_cost": "35.09",

"data_read_per_join": "422"

"used_columns": [

"emp_no",

"dept_no"

]

}

]

}

1 row in set, 1 warning (0.00 sec)

Note (Code 1003): /* select#1 */ select `employees`.`de`.`dept_no` AS `dept_no`,count(`employees`.`dm`.`emp_no`) AS `count(dm.emp_no)` from `employees`.`dept_emp` `de` join `employees`.`dept_manager` `dm` where (`employees`.`de`.`emp_no` = `employees`.`dm`.`emp_no`) group by `employees`.`de`.`dept_no`

Surprisingly, while many DISTINCT queries can be converted into equivalent queries with the GROUP BY clause, there is separate member ( duplicates_removal) for processing it. Let’s see how it works with a simple query that performs the same job as the first one in this blog post:

mysql> explain format=json select distinct dept_no from dept_empG
*************************** 1. row ***************************
EXPLAIN: {
  "query_block": {
    "select_id": 1,
    "cost_info": {
      "query_cost": "14.40"
    },
    "duplicates_removal": {
      "using_filesort": false,
      "table": {
        "table_name": "dept_emp",
        "access_type": "range",
        "possible_keys": [
          "PRIMARY",
          "emp_no",
          "dept_no"
        ],
        "key": "dept_no",
        "used_key_parts": [
          "dept_no"
        ],
        "key_length": "4",
        "rows_examined_per_scan": 9,
        "rows_produced_per_join": 9,
        "filtered": "100.00",
        "using_index_for_group_by": true,
        "cost_info": {
          "read_cost": "12.60",
          "eval_cost": "1.80",
          "prefix_cost": "14.40",
          "data_read_per_join": "144"
        },
        "used_columns": [
          "emp_no",
          "dept_no"
        ]
      }
    }
  }
}
1 row in set, 1 warning (0.00 sec)

Note (Code 1003): /* select#1 */ select distinct `employees`.`dept_emp`.`dept_no` AS `dept_no` from `employees`.`dept_emp`

mysql> explain format=json select distinct dept_no from dept_empG

*************************** 1. row ***************************

EXPLAIN: {

"query_block": {

"select_id": 1,

"cost_info": {

"query_cost": "14.40"

"duplicates_removal": {

"using_filesort": false,

"table": {

"table_name": "dept_emp",

"access_type": "range",

"possible_keys": [

"PRIMARY",

"emp_no",

"dept_no"

"key": "dept_no",

"used_key_parts": [

"dept_no"

"key_length": "4",

"rows_examined_per_scan": 9,

"rows_produced_per_join": 9,

"filtered": "100.00",

"using_index_for_group_by": true,

"cost_info": {

"read_cost": "12.60",

"eval_cost": "1.80",

"prefix_cost": "14.40",

"data_read_per_join": "144"

"used_columns": [

"emp_no",

"dept_no"

]

}

1 row in set, 1 warning (0.00 sec)

Note (Code 1003): /* select#1 */ select distinct `employees`.`dept_emp`.`dept_no` AS `dept_no` from `employees`.`dept_emp`

You can see that the plan is almost same, but parent element for the plan is duplicates_removal.

The reason there are differences between these members can be seen if we change the second, more complicated query to use DISTINCT in place of GROUP BY:

mysql> explain format=json select distinct de.dept_no, count(dm.emp_no) from dept_emp de join dept_manager dm using(emp_no)G
ERROR 1140 (42000): In aggregated query without GROUP BY, expression #1 of SELECT list contains nonaggregated column 'employees.de.dept_no'; this is incompatible with sql_mode=only_full_group_by

mysql> explain format=json select distinct de.dept_no, count(dm.emp_no) from dept_emp de join dept_manager dm using(emp_no)G

ERROR 1140 (42000): In aggregated query without GROUP BY, expression #1 of SELECT list contains nonaggregated column 'employees.de.dept_no'; this is incompatible with sql_mode=only_full_group_by

This example shows that DISTINCT is not exactly same as GROUP BY, and can be used together if we want to count the number of managers in each department (grouped by the year when the manager started working in the department). In this case, however, we are interested only in unique pairs of such dates and don’t want to see duplicates. Duplicates will appear if one person managed same department more than two years.

mysql> explain format=json select distinct de.dept_no, count(dm.emp_no) from dept_emp de join dept_manager dm using(emp_no) group by de.dept_no, year(de.from_date)G
*************************** 1. row ***************************
EXPLAIN: {
  "query_block": {
    "select_id": 1,
    "cost_info": {
      "query_cost": "61.63"
    },
    "duplicates_removal": {
      "using_temporary_table": true,
      "using_filesort": false,
      "grouping_operation": {
        "using_temporary_table": true,
        "using_filesort": true,
        "cost_info": {
          "sort_cost": "26.53"
        },
        "nested_loop": [
          {
            "table": {
              "table_name": "dm",
              "access_type": "index",
              "possible_keys": [
                "PRIMARY",
                "emp_no"
              ],
              "key": "emp_no",
              "used_key_parts": [
                "emp_no"
              ],
              "key_length": "4",
              "rows_examined_per_scan": 24,
              "rows_produced_per_join": 24,
              "filtered": "100.00",
              "using_index": true,
              "cost_info": {
                "read_cost": "1.00",
                "eval_cost": "4.80",
                "prefix_cost": "5.80",
                "data_read_per_join": "384"
              },
              "used_columns": [
                "dept_no",
                "emp_no"
              ]
            }
          },
          {
            "table": {
              "table_name": "de",
              "access_type": "ref",
              "possible_keys": [
                "PRIMARY",
                "emp_no"
              ],
              "key": "PRIMARY",
              "used_key_parts": [
                "emp_no"
              ],
              "key_length": "4",
              "ref": [
                "employees.dm.emp_no"
              ],
              "rows_examined_per_scan": 1,
              "rows_produced_per_join": 26,
              "filtered": "100.00",
              "cost_info": {
                "read_cost": "24.00",
                "eval_cost": "5.31",
                "prefix_cost": "35.11",
                "data_read_per_join": "424"
              },
              "used_columns": [
                "emp_no",
                "dept_no",
                "from_date"
              ]
            }
          }
        ]
      }
    }
  }
}
1 row in set, 1 warning (0.00 sec)

Note (Code 1003): /* select#1 */ select distinct `employees`.`de`.`dept_no` AS `dept_no`,count(`employees`.`dm`.`emp_no`) AS `count(dm.emp_no)` from `employees`.`dept_emp` `de` join `employees`.`dept_manager` `dm` where (`employees`.`de`.`emp_no` = `employees`.`dm`.`emp_no`) group by `employees`.`de`.`dept_no`,year(`employees`.`de`.`from_date`)

mysql> explain format=json select distinct de.dept_no, count(dm.emp_no) from dept_emp de join dept_manager dm using(emp_no) group by de.dept_no, year(de.from_date)G

*************************** 1. row ***************************

EXPLAIN: {

"query_block": {

"select_id": 1,

"cost_info": {

"query_cost": "61.63"

"duplicates_removal": {

"using_temporary_table": true,

"using_filesort": false,

"grouping_operation": {

"using_temporary_table": true,

"using_filesort": true,

"cost_info": {

"sort_cost": "26.53"

"nested_loop": [

{

"table": {

"table_name": "dm",

"access_type": "index",

"possible_keys": [

"PRIMARY",

"emp_no"

"key": "emp_no",

"used_key_parts": [

"emp_no"

"key_length": "4",

"rows_examined_per_scan": 24,

"rows_produced_per_join": 24,

"filtered": "100.00",

"using_index": true,

"cost_info": {

"read_cost": "1.00",

"eval_cost": "4.80",

"prefix_cost": "5.80",

"data_read_per_join": "384"

"used_columns": [

"dept_no",

"emp_no"

]

}

{

"table": {

"table_name": "de",

"access_type": "ref",

"possible_keys": [

"PRIMARY",

"emp_no"

"key": "PRIMARY",

"used_key_parts": [

"emp_no"

"key_length": "4",

"ref": [

"employees.dm.emp_no"

"rows_examined_per_scan": 1,

"rows_produced_per_join": 26,

"filtered": "100.00",

"cost_info": {

"read_cost": "24.00",

"eval_cost": "5.31",

"prefix_cost": "35.11",

"data_read_per_join": "424"

"used_columns": [

"emp_no",

"dept_no",

"from_date"

]

}

]

}

1 row in set, 1 warning (0.00 sec)

Note (Code 1003): /* select#1 */ select distinct `employees`.`de`.`dept_no` AS `dept_no`,count(`employees`.`dm`.`emp_no`) AS `count(dm.emp_no)` from `employees`.`dept_emp` `de` join `employees`.`dept_manager` `dm` where (`employees`.`de`.`emp_no` = `employees`.`dm`.`emp_no`) group by `employees`.`de`.`dept_no`,year(`employees`.`de`.`from_date`)

In this case, the member grouping_operation is a child of duplicates_removal and the temporary table used to store the result of GROUP BY before removing the duplicates. A temporary table was also used to perform a filesort for the grouping operation itself.

Compare this with regular EXPLAIN output. EXPLAIN only shows that a temporary table was used, but does not provide insights on the operations for which it was used:

mysql> explain select distinct de.dept_no, count(dm.emp_no) from dept_emp de join dept_manager dm using(emp_no) group by de.dept_no, year(de.from_date)G
*************************** 1. row ***************************
           id: 1
  select_type: SIMPLE
        table: dm
   partitions: NULL
         type: index
possible_keys: PRIMARY,emp_no
          key: emp_no
      key_len: 4
          ref: NULL
         rows: 24
     filtered: 100.00
        Extra: Using index; Using temporary; Using filesort
*************************** 2. row ***************************
           id: 1
  select_type: SIMPLE
        table: de
   partitions: NULL
         type: ref
possible_keys: PRIMARY,emp_no
          key: PRIMARY
      key_len: 4
          ref: employees.dm.emp_no
         rows: 1
     filtered: 100.00
        Extra: NULL
2 rows in set, 1 warning (0.01 sec)

Note (Code 1003): /* select#1 */ select distinct `employees`.`de`.`dept_no` AS `dept_no`,count(`employees`.`dm`.`emp_no`) AS `count(dm.emp_no)` from `employees`.`dept_emp` `de` join `employees`.`dept_manager` `dm` where (`employees`.`de`.`emp_no` = `employees`.`dm`.`emp_no`) group by `employees`.`de`.`dept_no`,year(`employees`.`de`.`from_date`)

mysql> explain select distinct de.dept_no, count(dm.emp_no) from dept_emp de join dept_manager dm using(emp_no) group by de.dept_no, year(de.from_date)G

*************************** 1. row ***************************

id: 1

select_type: SIMPLE

table: dm

partitions: NULL

type: index

possible_keys: PRIMARY,emp_no

key: emp_no

key_len: 4

ref: NULL

rows: 24

filtered: 100.00

Extra: Using index; Using temporary; Using filesort

*************************** 2. row ***************************

id: 1

select_type: SIMPLE

table: de

partitions: NULL

type: ref

possible_keys: PRIMARY,emp_no

key: PRIMARY

key_len: 4

ref: employees.dm.emp_no

rows: 1

filtered: 100.00

Extra: NULL

2 rows in set, 1 warning (0.01 sec)

Conclusion: EXPLAIN FORMAT=JSON contains all the details about the GROUP BY and DISTINCT optimizations.

MySQL 5.7
Support

Compare Percona to Leading Database Solutions

Software
Downloads

Valkey Contribution

Product Documentation

Resource Hub

Why Percona for MongoDB?

Why Percona for PostgreSQL?

Percona Blog

Percona Community Hub

Percona Events Hub

About Percona

Percona in the News

Our Customers

Our Partners

Careers

Contact Us

grouping_operation, duplicates_removal: EXPLAIN FORMAT=JSON has all details about GROUP BY

Related Blog Articles

RECOMMENDED ARTICLES

JavaScript Stored Routines in Percona Server for MySQL: A New Era for Database Programmability

Running Databases on Kubernetes: A Practical Guide to Risks, Benefits, and Best Practices

Building a Multi-Cloud Strategy: Cut Costs, Improve Resilience, and Avoid Lock-In

MOST POPULAR ARTICLES

Deploy Django on Kubernetes With Percona Operator for PostgreSQL

MySQL Performance Tuning: Maximizing Database Efficiency and Speed

The Ultimate Guide to Open Source Databases

MySQL 5.7 Support

Compare Percona to Leading Database Solutions

Software Downloads

Valkey Contribution

Product Documentation

Resource Hub

Why Percona for MongoDB?

Why Percona for PostgreSQL?

Percona Blog

Percona Community Hub

Percona Events Hub

About Percona

Percona in the News

Our Customers

Our Partners

Careers

Contact Us

grouping_operation, duplicates_removal: EXPLAIN FORMAT=JSON has all details about GROUP BY

About the Author

Share This Post!

Stay up to date with the Percona Blog

Related Blog Articles

RECOMMENDED ARTICLES

JavaScript Stored Routines in Percona Server for MySQL: A New Era for Database Programmability

Running Databases on Kubernetes: A Practical Guide to Risks, Benefits, and Best Practices

Building a Multi-Cloud Strategy: Cut Costs, Improve Resilience, and Avoid Lock-In

MOST POPULAR ARTICLES

Deploy Django on Kubernetes With Percona Operator for PostgreSQL

MySQL Performance Tuning: Maximizing Database Efficiency and Speed

The Ultimate Guide to Open Source Databases

MySQL 5.7
Support

Software
Downloads