Оптимизация потокового SQL на примере TopN в Apache Flink
Backend
Data Science

Тезисы

В рамках доклада:

  • Решим простую задачку по вычислению TopN с помощью SQL на потоке данных;
  • Разберем как осуществляется агрегация в потоке данных и что там может быть сложного;
  • Сравним решение TopN задачки на Apache Spark и Apache Flink, поймем что лучше и почему;
  • Ускорим вычисление в 10 раз путем несложных оптимизаций.

Аудитория

Backend-developer, engineers.

Уровень сложности

Middle.

Презентация (на Я.Диске)

Запись доклада

Huawei

Роман Бойко

Работаю с BigData c 2014 года. Начинал в Beeline, где участвовал в создании первого в компании промышленного кластера Hadoop, наполнении его данными, а также в разработке low-latency систем поддержки бизнеса. С 2020 года работаю в Huawei, где разрабатываю потоковые системы обработки данных на базе Apache Flink для нужд Huawei Cloud (в России представлен под брендом Sber Cloud).

Работаю с BigData c 2014 года. Начинал в Beeline, где участвовал в создании первого в компании промышленного кластера Hadoop, наполнении его данными, а также в разработке low-latency систем поддержки бизнеса. С 2020 года работаю в Huawei, где разрабатываю потоковые системы обработки данных на базе Apache Flink для нужд Huawei Cloud (в России представлен под брендом Sber Cloud).

Другие спикеры секции Backend

Еще на тему Backend