Новости по акциям компании GOOGLE (ALPHABET)
Новость: положительная. Генеративный искусственный интеллект Google теперь может анализировать часы видео. Gemini, семейство генеративных моделей искусственного интеллекта Google, теперь может анализировать более длинные документы, кодовые базы, видео и аудиозаписи, чем раньше. Во время своего выступления на конференции разработчиков Google I/O 2024 во вторник компания Google объявила о закрытой предварительной версии новой версии Gemini 1.5 Pro, текущей флагманской модели компании, которая может принимать до 2 миллионов токенов. Это вдвое превышает предыдущую максимальную сумму. Новая версия Gemini 1.5 Pro, имеющая 2 миллиона токенов, поддерживает самый большой объем ввода среди всех коммерчески доступных моделей. Следующий по величине, Claude 3 от Anthropic , достигает максимума в 1 миллион токенов. В области искусственного интеллекта «токены» относятся к разделенным битам необработанных данных, например, к слогам «фан», «тас» и «тик» в слове «фантастический». Два миллиона токенов эквивалентны примерно 1,4 миллионам слов, двум часам видео или 22 часам аудио. Помимо возможности анализировать большие файлы, модели, которые могут принимать больше токенов, иногда могут повысить производительность. В отличие от моделей с небольшим максимальным вводом токенов (также известных как контекст ), такие модели, как Gemini 1.5 Pro с вводом 2 миллионов токенов, не смогут легко «забыть» содержание совсем недавних разговоров и отклониться от темы. Модели с большим контекстом также могут лучше понять поток данных, которые они принимают — по крайней мере, гипотетически — и генерировать более контекстуально более богатые ответы. Разработчики, заинтересованные в использовании Gemini 1.5 Pro с контекстом на 2 миллиона токенов, могут добавить свои имена в список ожидания в Google AI Studio, инструменте разработки генеративного искусственного интеллекта от Google. (Gemini 1.5 Pro с контекстом на 1 миллион токенов станет общедоступным в сервисах и платформах Google для разработчиков в следующем месяце.) Помимо более широкого контекстного окна, Google сообщает, что Gemini 1.5 Pro был «улучшен» за последние несколько месяцев за счет улучшений алгоритма. По словам Google, он лучше справляется с генерацией кода, логическим рассуждением и планированием, многоходовым разговором, а также пониманием аудио и изображений. А в Gemini API и AI Studio 1.5 Pro теперь может анализировать аудио, а также изображения и видео — и «управляться» с помощью функции, называемой системными инструкциями. Gemini 1.5 Flash, более быстрая модель Для менее требовательных приложений Google запускает общедоступную предварительную версию Gemini 1.5 Flash, «дистиллированную» версию Gemini 1.5 Pro, небольшую и эффективную модель, созданную для «узких», «высокочастотных» генеративных рабочих нагрузок ИИ. Flash, который имеет контекстное окно размером до 2 миллионов токенов, является мультимодальным, как и Gemini 1.5 Pro, что означает, что он может анализировать аудио, видео и изображения, а также текст (но генерирует только текст). «Gemini Pro предназначен для гораздо более общих или сложных, часто многоэтапных логических задач», — заявил во время брифинга с журналистами Джош Вудворд, вице-президент Google Labs, одного из экспериментальных подразделений Google по искусственному интеллекту. «[Но] как разработчик, вы действительно хотите использовать [Flash], если вас очень заботит скорость вывода модели». Вудворд добавил, что Flash особенно хорошо подходит для таких задач, как обобщение, чат-приложения, субтитры к изображениям и видео, а также извлечение данных из длинных документов и таблиц. Flash, похоже, является ответом Google на небольшие и недорогие модели, обслуживаемые через API, такие как Anthropic.Клод 3 Хайку. Он, наряду с Gemini 1.5 Pro, очень широко доступен, в настоящее время в более чем 200 странах и территориях, включая Европейскую экономическую зону, Великобританию и Швейцарию. (Однако контекстная версия на 2 миллиона токенов ограничена списком ожидания.) В другом обновлении, предназначенном для экономных разработчиков, все модели Gemini, а не только Flash, вскоре смогут воспользоваться функцией, называемой кэшированием контекста. Это позволяет разработчикам хранить большие объемы информации (скажем, базу знаний или базу данных исследовательских работ) в кэше, к которому модели Gemini могут быстро и относительно дешево (с точки зрения каждого использования) получить доступ. Бесплатный пакетный API, доступный сегодня в общедоступной предварительной версии в Vertex AI, корпоративной платформе разработки генеративного ИИ от Google, предлагает более экономичный способ обработки таких рабочих нагрузок, как классификация и анализ настроений, извлечение данных и генерация описаний, позволяя выполнять несколько запросов. быть отправлены моделям Gemini в одном запросе. По мнению Вудворда, еще одна новая функция, которая появится позже в этом месяце в предварительной версии Vertex, — контролируемая генерация, — может привести к дальнейшей экономии средств, позволяя пользователям определять выходные данные модели Gemini в соответствии с конкретными форматами или схемами (например, JSON или XML). «Вы сможете отправить все свои файлы модели один раз, и вам не придется отправлять их снова и снова», — сказал Вудворд. «Это должно сделать длинный контекст [в частности] более полезным, а также более доступным». Автор: Kyle Wiggers. Источник: www.techcrunch.com
Пост взят с международного финтех-медиа ресурса
ДЛЯ ЛЮДЕЙ