Когда учебников уже недостаточно: кто и как готовит дата-сайентистов в МАИ
18 марта 2026
Фото: Пресс-служба МАИ / Личный архив
Современный рынок аналитики данных нуждается в специалистах, которые умеют работать не только с идеальными вводными «как в учебнике», но и с объективно сложной информацией, поступающей из массы источников. На практике именно с такими задачами сталкиваются аналитики в компаниях: информация может быть неполной, содержать ошибки или требовать длительной обработки перед анализом. Поэтому всё большую роль в подготовке специалистов играют преподаватели-практики — те, кто ежедневно работает с такими задачами в индустрии и может показать студентам, как правильно и быстро их решать.
Амелия Полей-Добронравова — преподаватель Московского авиационного института и специалист по машинному обучению в компании бренда «Вкусно — и точка» — «Технологии — и точка». Она начала преподавать ещё во время учёбы, а сегодня ведёт курсы по Python, предиктивной аналитике и анализу данных для студентов разных уровней — от первокурсников до магистров. В интервью она рассказала, как почти незаметно перешла из студенческой аудитории к преподавательской кафедре, почему специально «портит» учебные датасеты и как реальные индустриальные кейсы помогают студентам подготовиться к работе.
Амелия, как вы пришли к преподаванию в МАИ и какие курсы ведёте сейчас?
Мой переход от студентки МАИ к преподавателю оказался почти бесшовным. Во время учёбы я активно участвовала в ИТ-соревнованиях института № 8 «Компьютерные науки и прикладная математика» МАИ, и на третьем курсе бакалавриата меня пригласили поработать в лаборатории на кафедре. Уже на четвёртом курсе мне предложили попробовать себя в преподавании.
В 2023 году в МАИ открылась площадка Яндекс Лицея, и я стала там одновременно координатором и преподавателем. Это образовательная программа по программированию на Python для школьников 7–11 классов. Параллельно я помогала принимать лабораторные работы у первокурсников.
На первом курсе магистратуры мне уже доверили собственную семинарскую группу по Python. На втором курсе магистратуры я работала Data Scientist в компании Glowbyte, привезла на Школу математического моделирования индустриальный кейс компании и выступила на нём экспертом.
После выпуска из магистратуры мне предложили разработать и читать курс по предиктивной аналитике для магистрантов. Я веду его до сих пор и каждый семестр стараюсь обновлять и улучшать. Кроме того, сейчас читаю ещё один курс — «Фреймворки Python для анализа данных» для топ-ИТ-потока — это отдельная образовательная программа, реализуемая совместно с компанией ИТ-холдинг «Т1» и выпускающая после четырёх лет обучения специалистов уровня middle. А недавно я стала работать в компании «Технологии — и точка» бренда «Вкусно — и точка». Надеюсь, что удастся также развивать партнёрство с МАИ, чтобы студенты могли получать ещё больше индустриального опыта. Вот такой карьерный рост.
Перед тем, как разобраться подробнее с обучением, предлагаем дать верное определение профессии дата-сайентист. Кто это такой и почему востребован на рынке сегодня?
Тут всё очень просто. Дата-сайентист — это специалист, который использует статистику, математику и программирование, чтобы находить скрытые закономерности в больших объёмах данных и превращать их в практические решения для бизнеса. Он помогает заказчику понять, как работают алгоритмы компании, какие процессы работают эффективно, а где есть проблемы, и как улучшить работу всей системы.
В повседневной работе дата-сайентист решает широкий спектр задач: анализирует продажи, чтобы понять, почему они падают, и разрабатывает стратегии по привлечению новых клиентов; строит прогнозы и модели, которые помогают оптимизировать внутренние процессы компании — от подбора персонала до планирования ресурсов. При этом специалисты работают не только с таблицами и цифрами: они обрабатывают текстовые данные (например, отзывы клиентов и сообщения), анализируют изображения (например, фотографии продукции или видеопоток с камер), разрабатывают алгоритмы для работы с роботами и автоматизированными системами.
Благодаря этим навыкам дата-сайентисты помогают компаниям не только повышать эффективность маркетинга, но и улучшать всю работу бизнеса, превращая сложные данные в наглядные отчёты, конкретные рекомендации и управляемые процессы.
Получается, вы работаете и с бакалаврами, и с магистрантами. Чем отличаются подходы к их обучению?
Эти аудитории действительно требуют разных методов подготовки. У первокурсников, например, приоритетной задачей является формирование привычки к университетскому формату обучения. Нынешнее поколение первокурсников привыкло быстро потреблять информацию, иногда буквально «на ускорении». Поэтому приходится постоянно придумывать что-то, чтобы удерживать их внимание: использовать неожиданные тесты по материалу, добавлять шутки и пасхалки на слайды, задавать каверзные вопросы, устраивать небольшие голосования прямо во время лекции.
При этом именно на первом курсе — в начале обучения — преподаватель может либо пробудить исследовательский интерес, либо невольно приучить студента просто заучивать материал. Я стараюсь объяснить ребятам, что за время обучения им важно попробовать разные направления, чтобы понять, где им действительно интересно работать.
С магистрантами задача уже другая: систематизировать накопленные знания и показать, какие проблемы возникают при применении технологий на практике. В углублённых курсах, которые читаются на программах специализированного высшего образования, студенты окончательно формируют профиль будущей профессии.
Например, на курсе предиктивной аналитики я показываю разницу между промышленными данными и данными из ритейла. Для лабораторных работ мы используем реальные данные, которые были специально деформированы и анонимизированы.
Вообще я стараюсь постоянно показывать студентам, насколько разнообразна сфера Data Science. Даже внутри одного направления не существует универсального решения — в каждой задаче приходится экспериментировать и использовать разные подходы.
Вы используете на занятиях нестандартные практические задания? Можете привести примеры?
Конечно. Один из самых любимых приёмов на лабораторных — это так называемые «грязные данные».
Я передаю студентам Excel-файл, который на первый взгляд выглядит абсолютно корректно. Но внутри спрятаны типичные ошибки: разные кодировки, пробелы в числах, даты в неверном формате, случайные символы — всё то, что часто появляется из-за ручного ввода данных.
Студенты, привыкшие к идеально подготовленным учебным датасетам, сразу начинают строить модели и получают совершенно абсурдные результаты. Только после долгой проверки и отладки они находят причину.
Практическая ценность этого упражнения в том, что оно разрушает популярный миф о профессии Data Scientist. Многие считают, что эта работа — только написание кода и использование нейросетей. На практике значительная часть времени в реальных проектах уходит на очистку и проверку данных.
Ещё одна типичная задача, которую я даю студентам, формулируется примерно так же, как её часто ставят реальные заказчики: «Спрогнозируйте на максимально долгий срок максимально хорошо».
Студент строит математически точную модель. Но на защите я прошу объяснить: почему выбран именно такой горизонт прогнозирования и что вообще означает «хорошо» для конкретной задачи. Часто оказывается, что математическая точность не совпадает с бизнес-потребностью. И студенту приходится защищать не код, а экономическую целесообразность модели.
Такой формат учит переводить язык бизнеса на язык метрик и управлять ожиданиями заказчика — это один из ключевых навыков в работе аналитика.
А кейсы, с которыми столкнулись сами, разбираете на занятиях со студентами?
Да, иногда приношу на занятия такие задачи. Например, одна из них — прогноз самовозгорания угля при открытом хранении и создание так называемого «виртуального датчика».
Вместо привычных студентам параметров здесь используются физические характеристики сырья, погодные данные, тепловизионные измерения — всё то, от чего зависит безопасность промышленного объекта.
Студенты ожидают классическую постановку задачи: «вот данные X, предскажи Y». Но в реальности им приходится погружаться в физику процесса, консультироваться с экспертами и самостоятельно принимать инженерные решения.
Это важный опыт, потому что в индустрии большинство задач неклассические. Там редко бывают готовые датасеты и заранее определённые метрики. Нужно сначала правильно сформулировать проблему, договориться с заказчиком о критериях успеха и только потом выбирать техническое решение.
Например, в текстовой аналитике существует задача НСИ: поддержка нормативно-справочной информации. Суть заключается в следующем: в какой-нибудь каталог товаров названия вносятся без единых правил написания, и найти по базе данных аналог для закончившегося товара в пару кликов не выходит, нужно решить проблему. Но прежде чем начинать разработку решения, основываясь на каких-то лексических предпосылках, нужно договориться с бизнесом, что именно мы считаем аналогом для закончившихся винтов: наличие слова «винт» в названии, совпадение диаметра или производителя или их комбинация.
На этом примере хорошо видно, что будущих специалистов важно обучать не только работой с компьютером, но и с людьми. Коммуникация — наше всё.
Какой баланс между теорией и практикой вы считаете оптимальным?
Если говорить про аудиторные занятия, я бы ориентировалась примерно на 40% практики и 60% теории. Почему именно такое соотношение, а не, например, 50% на 50%? Идея в том, чтобы увеличить часы практики, но при этом не умалять важность лекторных занятий. Теоретические пробелы сами себя однозначно не закроют. При этом, отмечу, что каждая теоретическая тема у нас обязательно сопровождается проектным заданием для самостоятельной работы.
В итоге общий объём практики по факту получается даже больше, чем 40%. За все эти часы студент успевает оформить свой финальный артефакт — проект, который он доделает до конца и который ляжет в основу его профессионального портфолио.
Помогаете ли вы студентам при приёме на работу?
Четверо студентов МАИ проходили стажировку под моим руководством в компании Glowbyte. Двое из них после стажировки остались работать в моей команде по текстовой аналитике. Это студенты института № 8 МАИ.
Мы познакомились в рамках университетского проекта-интенсива «Школа математического моделирования», где они решали кейс, который я привезла от компании. Они не заняли первое место, но показали очень высокую скорость обучения. Буквально за несколько дней освоили технологии, которые обычно изучают месяцами.
На тот момент Иван был первокурсником, а Мария — студенткой второго курса. Но их энтузиазм и желание развиваться позволили им быстро вырасти до уровня уверенных junior-специалистов, в результате чего их наняли в штат. Вместе мы работали над разными задачами — от достаточно рутинных до весьма необычных по сфере применения. Так, например, среди них был автоматической сбор Google-презентаций. Из базы уже существующих презентаций компании находились максимально релевантные текстовому запросу слайды и собирались в новую. Решение подбирало слайды и на основе текстового содержания, и на основе визуальных схем и диаграмм, находящихся на них.
Через год я решила сосредоточиться именно на предиктивной аналитике и перешла работать в компанию «Технологии — и точка» («Вкусно — и точка»). Иван Зайцев позже присоединился к продуктовой LLM-команде «Билайна», а Мария Соловьёва продолжает работать в Glowbyte. При этом мы всё ещё активно общаемся — и не просто дружим, а регулярно обмениваемся опытом, продолжая вместе расти как эксперты отрасли.
Что бы вы посоветовали всем, кто хочет карьерного роста в вашей сфере? С чего начать и к каким трудностям готовиться?
Сейчас, как никогда раньше, много и учебных пособий, и серий лекций в открытом доступе, и мини-курсов, и стажировок по направлению Data Science. Если вы не учитесь в вузе на этом направлении, то беритесь за открытые курсы, можно начать с хендбука Яндекса или лекций Константина Воронцова. Если вы уже учитесь на направлении, где есть курсы машинного обучения, старайтесь искать дополнительную информацию к ним и решать как можно больше задач, участвовать в хакатонах. Главное не бояться и пробовать себя!