Новости по акциям компании GOOGLE
Новость: положительная. Google Gemini Pro 1.5 выходит в общедоступную предварительную версию на Vertex AI. Gemini 1.5 Pro, самая мощная модель генеративного искусственного интеллекта от Google, теперь доступна в общедоступной предварительной версии на Vertex AI, платформе Google для разработки искусственного интеллекта, ориентированной на предприятия. Компания объявила об этой новости во время своей ежегодной конференции Cloud Next, которая проходит в Лас-Вегасе на этой неделе. Gemini 1.5 Pro был выпущен в феврале и присоединился к семейству генеративных моделей искусственного интеллекта Gemini от Google. Несомненно, его главной особенностью является объем контекста, который он может обработать: от 128 000 токенов до 1 миллиона токенов, где «токены» относятся к разделенным битам необработанных данных (например, слогам «фан», «тас» и «тик»). в слове «фантастический»). Один миллион токенов эквивалентен примерно 700 000 слов или примерно 30 000 строк кода. Это примерно в четыре раза больше данных, которые флагманская модель Anthropic, Claude 3, может принять в качестве входных данных, и примерно в восемь раз больше, чем максимальный контекст OpenAI GPT-4 Turbo. Контекст модели или контекстное окно относится к исходному набору данных (например, тексту), который модель рассматривает перед созданием выходных данных (например, дополнительного текста). Простой вопрос: «Кто победил на президентских выборах в США 2020 года?» — может служить контекстом, как и сценарий фильма, электронное письмо, эссе или электронная книга. Модели с маленькими контекстными окнами склонны «забывать» содержание даже самых недавних разговоров, что приводит к отклонению от темы. Это не обязательно так с моделями с большим контекстом. И, в качестве дополнительного преимущества, модели с большим контекстом могут лучше понять повествовательный поток данных, которые они принимают, генерировать контекстуально более богатые ответы и уменьшить потребность в точной настройке и обосновании фактов — по крайней мере, гипотетически. Так что же конкретно можно сделать с контекстным окном в 1 миллион токенов? Google обещает множество вещей, таких как анализ библиотеки кода, «рассуждение» на длинных документах и продолжительные беседы с чат-ботом. Поскольку Gemini 1.5 Pro является многоязычным — и мультимодальным в том смысле, что он способен понимать изображения и видео, а также, по состоянию на вторник, аудиопотоки в дополнение к тексту — модель также может анализировать и сравнивать контент в таких медиа, как телешоу, фильмы, радио. трансляции, записи конференц-связи и многое другое на разных языках. Один миллион токенов соответствует примерно часу видео или примерно 11 часам аудио. Благодаря своим возможностям обработки звука Gemini 1.5 Pro также может создавать транскрипции для видеоклипов, хотя качество этих транскрипций остается неопределенным. В предварительно записанной демонстрации ранее в этом году Google показала, как Gemini 1.5 Pro ищет в стенограмме телепередачи о высадке на Луну Аполлона-11 (которая занимает около 400 страниц) цитаты, содержащие шутки, а затем находит в кадрах фильма сцену, похожую на карандаш. Google сообщает, что первые пользователи Gemini 1.5 Pro, в том числе United Wholesale Mortgage, TBS и Replit, используют большое контекстное окно для задач, охватывающих андеррайтинг ипотечного кредитования; автоматизация разметки метаданных в медиаархивах; и создание, объяснение и преобразование кода. Gemini 1.5 Pro не обрабатывает миллион токенов по щелчку пальца. В вышеупомянутых демонстрациях каждый поиск занимал от 20 секунд до минуты — намного дольше, чем средний запрос ChatGPT. Google ранее заявлял, что задержка является областью внимания и что со временем компания работает над «оптимизацией» Gemini 1.5 Pro. Следует отметить, что Gemini 1.5 Pro постепенно проникает в другие части экосистемы корпоративных продуктов Google: во вторник компания объявила, что эта модель (в частной предварительной версии) будет обеспечивать новые функции в Code Assist, инструменте помощи в кодировании с генеративным искусственным интеллектом от Google. По словам Google, разработчики теперь могут выполнять «крупномасштабные» изменения в кодовых базах, например обновлять межфайловые зависимости и проверять большие фрагменты кода. Автор: Kyle Wiggers. Источник: www.techcrunch.com
Пост взят с международного финтех-медиа ресурса
ДЛЯ ЛЮДЕЙ