Что такое Apache Kafka?
Apache Kafka – это распределенное, отказоустойчивое, горизонтально масштабируемое хранилище, основной структурой данных в котором является append-only лог и которое:
- поддерживает потоковую обработку данных;
- имеет развитую экосистему коннекторов для интеграции с базами данных и другими хранилищами.
Зачем создали Apache Kafka?
Kafka разработали более 10 лет назад в LinkedIn из-за потребности компании в обработке огромных потоков данных между различными частями их внутренней платформы. Оценив существующие на тот момент решения, инженеры компании решили разработать свою технологию. Кстати, название технологии дал её автор – Jay Kreps, в честь любимого писателя Франца Кафки.
Почему выбирают Apache Kafka?
- отлично подходит для хранения и обработки в реальном времени огромных объемов данных;
- обладает возможностью горизонтально масштабировать продюсеров, консьюмеров и брокеров;
- развитая экосистема Kafka Connect позволяет связывать практически любые источники данных с Kafka в считанные минуты, а Kafka Streams дает возможность проводить обработку этих данных в реальном времени.
Как используют Apache Kafka?
Kafka используется, когда речь заходит об обработке больших объемов данных в реальном времени, а также производительности и сохранности данных. Примеры использования технологии:
- брокер сообщений для межсервисного взаимодействия;
- обработка кликстрим действий пользователей;
- система очередей (имейте в виду, что Кафка поддерживает только семантику топиков);
- журналирование;
- сбор метрик;
- commit log;
- центральное хранилище информации.
Основные тезисы:
- Apache Kafka – быстрая, надежная технология для обработки и хранения больших потоков данных с богатой экосистемой и активным комьюнити;
- Kafka не заточена под единственный вариант использования и подходит под разнообразные задачи;
- Kafka - лидирующая технология в своей отрасли, которую уже взяли “на вооружение” более 80% компаний из списка Fortune 100.
- Количество компаний, использующих Kafka во всем мире, продолжает расти и им нужны специалисты.
Базовый курс:
Авторы расскажут откуда произошла технология и в чем ее преимущество перед конкурентами. А также покажут как осуществлять первичную настройку и простые действия на начальном этапе. Все уроки базового курса в плейлисте: https://www.youtube.com/playlist?list=PL8D2P0ruohOAR7DAkEjhOqlQreg9rxBMu
Продвинутый курс:
Авторы на практике научат работать с Apache Kafka — платформой для передачи и обработки событий в реальном времени. Настраивать распределенный отказоустойчивый кластер, отслеживать метрики, равномерно распределять нагрузку.
Посмотреть программу продвинутого практического курса: https://slurm.club/31urcgo