Инфраструктура data science: хранилища данных, ПО, витрины, озёра и важные скиллы
Подкаст «Люди и код», выпуск №57: Влад Гоцуляк.

Влад Гоцуляк
Директор по Data&AI в «Еаптеке». Окончил МФТИ. В свободное время читает лекции по big data для студентов кафедры БИТ в МФТИ.
Содержание выпуска
- Из каких компонентов состоит инфраструктура data science в идеальном варианте и как компании её выстроить.
 - Из каких источников в систему приходят сырые данные.
 - Куда данные сохраняются и в каком виде.
 - Как предварительно обрабатываются и готовятся данные.
 - Как отбираются данные для обработки и анализа.
 - Как происходит анализ в DS и чем он отличается от традиционной аналитики.
 - Какие решения и инструменты существуют для анализа и изучения данных в data science.
 - Витрины, озёра данных, Kafka, S3, Hadoop и всё остальное.
 - Чем занимается отдел data science. Какие роли связаны с data science.
 - Как правильно формулировать задачу для специалистов по data science, какие ошибки в формулировках задач могут встречаться.
 - Насколько data science — программирование. Чем задачи и стиль программирования специалистов по data science отличаются от задач и стиля программирования обычных разработчиков.
 - Какие языки и для каких задач используются.
 - Что необходимо знать специалисту для первой работы. Кто такие мидлы и сеньоры.
 - Какие зарплаты, специализации и перспективы есть в data science.
 
Полезные ссылки
- Apache Spark
 - Apache Hadoop
 - Язык программирования Scala
 - Amazon Simple Storage Service
 - Redis
 - MLflow
 - CI/CD
 - Apache Kafka
 - Debezium
 - Micro Batching
 - Витрина данных
 - Слои в data science
 - REST API
 - Модель вычислений MapReduce
 - Google File System
 - HDFS
 - Захват изменения данных
 - Apache NiFi
 - Nginx
 - Apache Airflow
 - Dimensional modeling
 - Сайт-тренажёр
 - «Книга с кабанчиком»
 - Codewars
 - LeetCode
 - Ютуб-канал «Диджитализируй!»
 - Марк Лутц. «Изучаем Python»
 - Эви Немет, Гарт Снайдер, Трент Хейн, Бэн Уэйли, Дэн Макин. «Unix и Linux: руководство системного администратора»
 
Предложить тему, стать гостем подкаста, похвалить или поругать выпуск: code.media@skillbox.ru, t.me/tym83.
Слушать выпуск
Наш подкаст удобно слушать на популярных платформах:
Подписывайтесь, ставьте лайки, делитесь с друзьями и оставляйте комментарии!
Понравилась статья?
                                    Да