Новости компании NVIDIA: программное обеспечение
Библиотека NVIDIA Dynamo с открытым исходным кодом помогает ускорить и масштабировать модели искусственного интеллекта. Сегодня компания NVIDIA представила NVIDIA Dynamo — программное обеспечение с открытым исходным кодом, которое позволяет ускорить и масштабировать работу моделей искусственного интеллекта (ИИ) на фабриках ИИ с минимальными затратами и максимальной эффективностью. Для эффективной работы фабрик ИИ необходимо организовать и координировать запросы на вывод ИИ через большое количество графических процессоров. Это позволит снизить затраты и максимизировать доход от токенов. По мере того как рассуждения ИИ становятся всё более популярными, каждая модель ИИ будет генерировать большое количество токенов, которые используются для «думания» при каждом запросе. Повышение производительности вывода при снижении стоимости вывода ускоряет рост и увеличивает возможности получения дохода для поставщиков услуг. NVIDIA Dynamo — это программное обеспечение для обслуживания выводов ИИ, разработанное для максимизации генерации токенов на фабриках ИИ, которые используют модели рассуждений ИИ. Оно организует и ускоряет коммуникацию между тысячами графических процессоров и использует дезагрегированное обслуживание для разделения фаз обработки и генерации больших языковых моделей (LLM) на разных графических процессорах. Это позволяет оптимизировать каждую фазу независимо для её конкретных потребностей и обеспечивает максимальное использование ресурсов графического процессора. «В разных отраслях по всему миру модели ИИ обучают по-разному, что делает их более сложными с течением времени», — сказал Дженсен Хуанг, основатель и генеральный директор NVIDIA. «Чтобы обеспечить будущее ИИ с индивидуальными рассуждениями, NVIDIA Dynamo помогает обслуживать эти модели в масштабе, обеспечивая экономию средств и эффективность на фабриках ИИ». Используя то же количество графических процессоров, Dynamo удваивает производительность и доход фабрик искусственного интеллекта, обслуживающих модели Llama на современной платформе NVIDIA Hopper™. При запуске модели DeepSeek-R1 на большом кластере стоек GB200 NVL72 интеллектуальные оптимизации вывода NVIDIA Dynamo также увеличивают количество генерируемых токенов более чем в 30 раз на каждый графический процессор. Для достижения этих улучшений производительности вывода NVIDIA Dynamo включает функции, которые позволяют ему увеличивать пропускную способность и сокращать расходы. Он может динамически добавлять, удалять и перераспределять графические процессоры в ответ на меняющиеся объёмы и типы запросов, а также определять конкретные графические процессоры в больших кластерах, которые могут минимизировать вычисления ответов и маршрутизировать запросы. Он также может выгружать данные вывода в более доступные устройства памяти и хранения и быстро извлекать их при необходимости, минимизируя расходы на вывод. NVIDIA Dynamo — это программное обеспечение с открытым исходным кодом, которое поддерживает PyTorch, SGLang, NVIDIA TensorRT™-LLM и vLLM. Это позволяет предприятиям, стартапам и исследователям разрабатывать и оптимизировать способы обслуживания моделей ИИ в рамках дезагрегированного вывода. Это позволит пользователям ускорить принятие вывода ИИ, в том числе в AWS, Cohere, CoreWeave, Dell, Fireworks, Google Cloud, Lambda, Meta, Microsoft Azure, Nebius, NetApp, OCI, Perplexity, Together AI и VAST.
Пост взят с международного финтех-медиа ресурса
ДЛЯ ЛЮДЕЙ