Y Combinator thumbnail

Y Combinator

Inference, Diffusion, World Models, and More | YC Paper Club

Основные выводы и инсайты

Ключевые выводы и инсайты

  • Инференс становится ключевым фактором возможностей ИИ: В ближайшие 2-3 года скорость инференса будет определять не только удобство, но и пиковый интеллект системы, особенно для алгоритмов, производительность которых зависит от количества "размышлений"

  • Спекулятивное декодирование можно распараллелить: Speculative Speculative Decoding (SSD) позволяет одновременно выполнять черновое создание и верификацию токенов, скрывая латентность черчения

  • Мировые модели обеспечивают лучшую интерпретируемость: В отличие от model-free подходов, мировые модели позволяют количественно оценивать ошибки моделирования и неопределенность

  • Классические теории объясняют современные "загадки" ИИ: Сверхпараметризация, доброкачественное переобучение и двойной спуск можно объяснить через PAC-Bayes и мягкие индуктивные смещения

  • При ограничениях по данным нужны новые стратегии: Когда данные ограничены, а вычисления неограничены, ансамблирование и агрессивная регуляризация дают 5-кратный выигрыш в эффективности данных

Практические стратегии

  • Для ускорения инференса: Используйте SSD для распараллеливания черчения и верификации, предсказывая наиболее вероятные исходы верификации заранее

  • Для робототехники: Применяйте диффузионные модели для многошагового прогнозирования действий и динамики, используя MPC для адаптации к новым наградам во время выполнения

  • Для мировых моделей: Используйте JEPA архитектуру с SIG регуляризатором (Sketched, Isotropic, Gaussian) для предотвращения коллапса представлений

  • При ограничениях данных:

  • Применяйте агрессивную регуляризацию (weight decay в 30 раз больше обычного)
  • Используйте ансамблирование множества меньших моделей вместо одной большой
  • Применяйте дистилляцию для уменьшения вычислительных затрат при инференсе

Конкретные детали и примеры

  • SSD достигает 300 токенов/сек для Llama 3 70B на 4 H100, правильно предсказывая исходы верификации в 80-90% случаев

  • Мировые модели работают с 15 млн параметров на одной карте с <24GB VRAM, в 50 раз быстрее конкурентов

  • В эксперименте с 200 млн токенов ансамблирование показало асимптоту 2.85 против 3.43 для регуляризации

  • Совместное масштабирование (регуляризация + ансамблирование) дает 5-кратный выигрыш в эффективности данных

  • Дистилляция сохраняет 83% улучшения потерь при переходе от ансамбля к одной модели

Предупреждения и частые ошибки

  • Не полагайтесь только на масштабирование модели при ограниченных данных - это приводит к переобучению после определенной точки

  • Избегайте коллапса представлений в мировых моделях - используйте соответствующую регуляризацию или трюки

  • Не игнорируйте классические методы ML - регуляризация, ансамблирование и дистилляция остаются мощными инструментами

  • PAC-Bayes границы становятся неточными при неправильном вычислении компрессионного члена

  • Мировые модели могут плохо работать на простых низкоразмерных задачах из-за избыточной сложности

Ресурсы и следующие шаги

  • Код SSD: Доступен пример реализации с демонстрацией на VLM

  • Проектная страница LAY World Model: QR-код предоставлен для подробностей

  • Сотрудничество с Andrew Gordon Wilson в Q Labs по проблеме обобщения

  • Дополнительная работа по синтетическим данным и их взаимодействию с эффективностью данных

  • YC Paper Club Slack для продолжения обсуждений и идей

Основные темы

  • Эволюция инференса: От вспомогательного инструмента к ключевому фактору возможностей ИИ

  • Мировые модели против model-free подходов: Компромиссы между интерпретируемостью и простотой

  • Классические теории ML в современном контексте: Как PAC-Bayes объясняет современные явления глубокого обучения

  • Стратегии при ограничениях данных: Новые подходы для эпохи, когда вычисления растут быстрее данных

  • Распараллеливание последовательных алгоритмов: Преодоление логических зависимостей в спекулятивном декодировании

← Back to Y Combinator Blog