Inference, Diffusion, World Models, and More | YC Paper Club

Основные выводы и инсайты

Ключевые выводы и инсайты

Инференс становится ключевым фактором возможностей ИИ: В ближайшие 2-3 года скорость инференса будет определять не только удобство, но и пиковый интеллект системы, особенно для алгоритмов, производительность которых зависит от количества "размышлений"
Спекулятивное декодирование можно распараллелить: Speculative Speculative Decoding (SSD) позволяет одновременно выполнять черновое создание и верификацию токенов, скрывая латентность черчения
Мировые модели обеспечивают лучшую интерпретируемость: В отличие от model-free подходов, мировые модели позволяют количественно оценивать ошибки моделирования и неопределенность
Классические теории объясняют современные "загадки" ИИ: Сверхпараметризация, доброкачественное переобучение и двойной спуск можно объяснить через PAC-Bayes и мягкие индуктивные смещения
При ограничениях по данным нужны новые стратегии: Когда данные ограничены, а вычисления неограничены, ансамблирование и агрессивная регуляризация дают 5-кратный выигрыш в эффективности данных

Практические стратегии

Для ускорения инференса: Используйте SSD для распараллеливания черчения и верификации, предсказывая наиболее вероятные исходы верификации заранее
Для робототехники: Применяйте диффузионные модели для многошагового прогнозирования действий и динамики, используя MPC для адаптации к новым наградам во время выполнения
Для мировых моделей: Используйте JEPA архитектуру с SIG регуляризатором (Sketched, Isotropic, Gaussian) для предотвращения коллапса представлений
При ограничениях данных:
Применяйте агрессивную регуляризацию (weight decay в 30 раз больше обычного)
Используйте ансамблирование множества меньших моделей вместо одной большой
Применяйте дистилляцию для уменьшения вычислительных затрат при инференсе

Конкретные детали и примеры

SSD достигает 300 токенов/сек для Llama 3 70B на 4 H100, правильно предсказывая исходы верификации в 80-90% случаев
Мировые модели работают с 15 млн параметров на одной карте с <24GB VRAM, в 50 раз быстрее конкурентов
В эксперименте с 200 млн токенов ансамблирование показало асимптоту 2.85 против 3.43 для регуляризации
Совместное масштабирование (регуляризация + ансамблирование) дает 5-кратный выигрыш в эффективности данных
Дистилляция сохраняет 83% улучшения потерь при переходе от ансамбля к одной модели

Предупреждения и частые ошибки

Не полагайтесь только на масштабирование модели при ограниченных данных - это приводит к переобучению после определенной точки
Избегайте коллапса представлений в мировых моделях - используйте соответствующую регуляризацию или трюки
Не игнорируйте классические методы ML - регуляризация, ансамблирование и дистилляция остаются мощными инструментами
PAC-Bayes границы становятся неточными при неправильном вычислении компрессионного члена
Мировые модели могут плохо работать на простых низкоразмерных задачах из-за избыточной сложности

Ресурсы и следующие шаги

Код SSD: Доступен пример реализации с демонстрацией на VLM
Проектная страница LAY World Model: QR-код предоставлен для подробностей
Сотрудничество с Andrew Gordon Wilson в Q Labs по проблеме обобщения
Дополнительная работа по синтетическим данным и их взаимодействию с эффективностью данных
YC Paper Club Slack для продолжения обсуждений и идей

Основные темы

Эволюция инференса: От вспомогательного инструмента к ключевому фактору возможностей ИИ
Мировые модели против model-free подходов: Компромиссы между интерпретируемостью и простотой
Классические теории ML в современном контексте: Как PAC-Bayes объясняет современные явления глубокого обучения
Стратегии при ограничениях данных: Новые подходы для эпохи, когда вычисления растут быстрее данных
Распараллеливание последовательных алгоритмов: Преодоление логических зависимостей в спекулятивном декодировании

← Back to Y Combinator Blog