Основные выводы и инсайты
Ключевые выводы и инсайты
-
Инференс становится ключевым фактором возможностей ИИ: В ближайшие 2-3 года скорость инференса будет определять не только удобство, но и пиковый интеллект системы, особенно для алгоритмов, производительность которых зависит от количества "размышлений"
-
Спекулятивное декодирование можно распараллелить: Speculative Speculative Decoding (SSD) позволяет одновременно выполнять черновое создание и верификацию токенов, скрывая латентность черчения
-
Мировые модели обеспечивают лучшую интерпретируемость: В отличие от model-free подходов, мировые модели позволяют количественно оценивать ошибки моделирования и неопределенность
-
Классические теории объясняют современные "загадки" ИИ: Сверхпараметризация, доброкачественное переобучение и двойной спуск можно объяснить через PAC-Bayes и мягкие индуктивные смещения
-
При ограничениях по данным нужны новые стратегии: Когда данные ограничены, а вычисления неограничены, ансамблирование и агрессивная регуляризация дают 5-кратный выигрыш в эффективности данных
Практические стратегии
-
Для ускорения инференса: Используйте SSD для распараллеливания черчения и верификации, предсказывая наиболее вероятные исходы верификации заранее
-
Для робототехники: Применяйте диффузионные модели для многошагового прогнозирования действий и динамики, используя MPC для адаптации к новым наградам во время выполнения
-
Для мировых моделей: Используйте JEPA архитектуру с SIG регуляризатором (Sketched, Isotropic, Gaussian) для предотвращения коллапса представлений
-
При ограничениях данных:
- Применяйте агрессивную регуляризацию (weight decay в 30 раз больше обычного)
- Используйте ансамблирование множества меньших моделей вместо одной большой
- Применяйте дистилляцию для уменьшения вычислительных затрат при инференсе
Конкретные детали и примеры
-
SSD достигает 300 токенов/сек для Llama 3 70B на 4 H100, правильно предсказывая исходы верификации в 80-90% случаев
-
Мировые модели работают с 15 млн параметров на одной карте с <24GB VRAM, в 50 раз быстрее конкурентов
-
В эксперименте с 200 млн токенов ансамблирование показало асимптоту 2.85 против 3.43 для регуляризации
-
Совместное масштабирование (регуляризация + ансамблирование) дает 5-кратный выигрыш в эффективности данных
-
Дистилляция сохраняет 83% улучшения потерь при переходе от ансамбля к одной модели
Предупреждения и частые ошибки
-
Не полагайтесь только на масштабирование модели при ограниченных данных - это приводит к переобучению после определенной точки
-
Избегайте коллапса представлений в мировых моделях - используйте соответствующую регуляризацию или трюки
-
Не игнорируйте классические методы ML - регуляризация, ансамблирование и дистилляция остаются мощными инструментами
-
PAC-Bayes границы становятся неточными при неправильном вычислении компрессионного члена
-
Мировые модели могут плохо работать на простых низкоразмерных задачах из-за избыточной сложности
Ресурсы и следующие шаги
-
Код SSD: Доступен пример реализации с демонстрацией на VLM
-
Проектная страница LAY World Model: QR-код предоставлен для подробностей
-
Сотрудничество с Andrew Gordon Wilson в Q Labs по проблеме обобщения
-
Дополнительная работа по синтетическим данным и их взаимодействию с эффективностью данных
-
YC Paper Club Slack для продолжения обсуждений и идей
Основные темы
-
Эволюция инференса: От вспомогательного инструмента к ключевому фактору возможностей ИИ
-
Мировые модели против model-free подходов: Компромиссы между интерпретируемостью и простотой
-
Классические теории ML в современном контексте: Как PAC-Bayes объясняет современные явления глубокого обучения
-
Стратегии при ограничениях данных: Новые подходы для эпохи, когда вычисления растут быстрее данных
-
Распараллеливание последовательных алгоритмов: Преодоление логических зависимостей в спекулятивном декодировании