[Stepik] LLMOps & Evaluation: из песочницы в продакшн (Алексей Малышкин)

Евражкa · 13 апр 2026 в 11:42

Практический курс по LLMOps. Соберёте продакшн-контур для LLM: eval-фреймворк (LangSmith/Ragas/OpenAI Evals), quality-гейты в CI/CD, алёрты на дрейф, монитринг скорости и стоимости, управление промпт-версиями и безопасность. Плюс профессиональные блоки: synthetic data для тестов, LLM-based judges, отчётность для релиз-комитета и runbook’и инцидентов.

О курсе:
LLMOps & Evaluation (PRO) — это практический курс о том, как вывести работу с GPT и другими LLM из песочницы в продакшн.
Мы разберём полный цикл: от построения пайплайнов (RAG, агенты) до оценки качества, мониторинга и оптимизации стоимости. Вы научитесь бороться с галлюцинациями, автоматизировать A/B-тесты и настраивать метрики, которые реально отражают работу модели.

В курсе:
практические инструменты: LangSmith, Ragas, OpenAI Evals, PromptLayer;
автоматизированные тесты и synthetic data;
мониторинг качества, латентности и затрат;
safety-тесты и контроль рисков.
Итог - вы сможете построить надёжную LLM-систему с измеримым качеством и управляемой стоимостью.

Программа курса:
Введение в LLMOps

Почему обычный prompt engineering не работает в продакшне

Классические боли

Обзор инструментов для LLMOps

Разбор реальных кейсов, где LLMOps сделал разницу

Практикум

Архитектура и пайплайны LLM-приложений

Компоненты продакшн-системы

Best practices для пайплайнов RAG и агентов

Управление версиями промптов и моделей (PromptOps)

Логирование и трассировка: как не терять контроль над моделью

Практикум

Метрики качества LLM-систем

Почему «accuracy» ≠ качество в LLM

Классические метрики

Современные метрики

User-oriented метрики

Как построить дашборд для мониторинга качества

Evaluation на практике

Как тестировать промпты и пайплайны (unit tests для LLM)

Автоматизированные A/B тесты с помощью LLM-оценки

Human-in-the-loop: когда и зачем нужны люди в тестировании

Генерация тест-датасетов (synthetic data) для проверки модели

Практика: написать собственный фреймворк для оценки

LLM Monitoring & Observability

Как мониторить продакшн-LLM

Alerting и логирование промптов/ответов

Борьба с деградацией качества (drift detection)

Cost management: оптимизация бюджета на LLM

Advanced Topics (для PRO)

Ragas: как построить автоматическую систему оценки RAG-проектов

OpenAI Evals и Custom Evals

LLM-based judges (оценка ответов через LLM)

Safety & Red-teaming

Интеграция с CI/CD: автоматические quality-гейты для деплоя

Практический проект

Построение RAG-системы с автоматической оценкой качества

Настройка метрик и мониторинга

Проведение A/B тестов между версиями промптов

Сбор и анализ результатов → финальный отчёт

В курс входят:

33 урока

171 тест

17 интерактивных задач

Автор курса: Алексей Малышкин

Скрытый текст. Доступен только зарегистрированным пользователям.Нажмите, чтобы раскрыть...