Новости по акциям компании GOOGLE
Новость: нейтральная. Давний критик искусственного интеллекта Гэри Маркус видит «шекспировскую трагедию», когда в сенсационном отчете обнаруживается широкомасштабное удаление данных, защищенных авторским правом. Гэри Маркус — ведущий исследователь искусственного интеллекта, который все больше приходит в ужас от увиденного. Он основал как минимум два стартапа в области искусственного интеллекта, один из которых был продан Uber , и исследовал эту тему более двух десятилетий. Буквально на прошлых выходных Financial Times назвала его «возможно, самым шумным собеседником в области ИИ» и сообщила, что Маркус предположил, что он стал мишенью критического поста Сэма Альтмана на X : «Дайте мне уверенность посредственного скептика в области глубокого обучения». Уже на следующий день после появления в FT Маркус усилил свою критику , написав в своем Substack о «генеративном ИИ как шекспировской трагедии». Темой стал сенсационный репортаж газеты New York Times о том, что OpenAI нарушила условия обслуживания YouTube, скопировав более миллиона часов пользовательского контента. Что еще хуже, потребность Google в данных для обучения собственной модели искусственного интеллекта была настолько ненасытной, что Google сделал то же самое, потенциально нарушив авторские права создателей контента, чьи видео он использовал без их согласия. Еще в 2018 году, отметил Маркус, он выразил сомнения по поводу подхода к обучению, основанного на «поглощении данных», целью которого было наполнить модели ИИ как можно большим количеством контента. Фактически, он перечислил восемь своих предупреждений, начиная с того момента, когда ему поставили диагноз галлюцинации в 2001 году , и все они сбываются, как проклятие Макбета или Гамлета, проявляющееся в пятом акте. «Что делает все это трагичным, так это то, что многие из нас так старались предупредить поле, что мы окажемся здесь», — написал Маркус. Хотя Маркус отказался давать комментарии Fortune, трагедия выходит далеко за рамки того факта, что никто не прислушивался к таким критикам, как он и Эд Зитрон, еще один известный скептик, которого цитирует FT . По данным Times, которая цитирует многочисленные источники, и Google, и OpenAI знали, что их действия сомнительны с юридической точки зрения (полагая на тот факт, что авторские права в эпоху ИИ еще не оспаривались), но чувствовали, что у них нет другого выбора, кроме как продолжать закачивают данные в свои большие языковые модели, чтобы оставаться впереди конкурентов. А в случае с Google компания потенциально понесла ущерб в результате масштабных усилий OpenAI по парсингу, но нарушение правил для парсинга тех же самых данных оставило ее с пресловутой рукой, связанной за спиной. Использовал ли OpenAI видео с YouTube? Сотрудники Google узнали, что OpenAI использует контент YouTube для обучения своих моделей, что нарушает как собственные условия обслуживания, так и, возможно, защиту авторских прав создателей, которым принадлежат видео. Оказавшись в этой ловушке, Google решила не осуждать OpenAI публично, потому что боялась привлечь внимание к собственному использованию видео на YouTube для обучения моделей ИИ, сообщает Times . Представитель Google сообщил Fortune, что компания «видела неподтвержденные сообщения» о том, что OpenAI использовала видео с YouTube. Они добавили, что условия обслуживания YouTube «запрещают несанкционированное копирование или загрузку» видео, и компания «имеет долгую историю применения технических и юридических мер для предотвращения этого». Маркус говорит, что поведение этих крупных технологических компаний было предсказуемым, поскольку данные были ключевым ингредиентом, необходимым для создания инструментов искусственного интеллекта, за разработку которых эти компании боролись. Без качественных данных, таких как хорошо написанные романы, подкасты знающих ведущих или профессионально созданные фильмы, чат-боты и генераторы изображений рискуют выдавать посредственный контент. Эту идею можно резюмировать в поговорке науки о данных «дерьмо на входе, дерьмо на выходе». В статье для Fortune Джим Стрэттон, технический директор компании Workday, занимающейся разработкой программного обеспечения для управления персоналом,сказал«Данные — это источник жизненной силы ИИ», что делает «потребность в качественных и своевременных данных более важной, чем когда-либо». Примерно в 2021 году OpenAI столкнулась с нехваткой данных. Отчаянно нуждаясь в большем количестве экземпляров человеческой речи для продолжения совершенствования своего инструмента ChatGPT, до выпуска которого оставался еще около года, OpenAI решила получить его с YouTube. Сотрудники обсудили тот факт, что копирование видео на YouTube может быть запрещено. В конце концов группа, в которую входил президент OpenAI Грег Брокман, реализовала этот план. По словам Маркуса, участие в этой схеме такого высокопоставленного лица, как Брокман, свидетельствует о том, насколько важны такие методы сбора данных для разработки ИИ. Брокман сделал это, «вероятно, зная, что он вступает в серую зону закона, но отчаянно пытаясь накормить зверя», — написал Маркус. «Если все развалится по юридическим или техническим причинам, этот образ может сохраниться». Когда к представителю OpenAI обратились за комментариями, он не ответил на конкретные вопросы об использовании видеороликов YouTube для обучения своих моделей. «Каждая из наших моделей имеет уникальный набор данных, который мы курируем, чтобы помочь им понять мир и оставаться конкурентоспособными в исследованиях на глобальном уровне», — написали они в электронном письме. «Мы используем многочисленные источники, включая общедоступные данные и партнерские отношения для получения закрытых данных, а также изучаем возможность создания синтетических данных», — сказали они, имея в виду практику использования контента, сгенерированного ИИ, для обучения моделей ИИ. Технологическому директору OpenAI Мире Мурати ответили на вопрос в Wall Street Journal интервью был ли новый видеогенератор Sora компании обучен с использованием видеороликов YouTube; она ответила: «На самом деле я в этом не уверена». На прошлой неделе генеральный директор YouTube Нил Мохан ответил сказав, что, хотя он и не знает, действительно ли OpenAI использовала данные YouTube для обучения Sora или любого другого инструмента, если бы это было так, это нарушило бы правила платформы. Мохан упомянул ,что Google использует некоторый контент YouTube для обучения своих инструментов искусственного интеллекта на основе нескольких контрактов, которые он имеет с отдельными создателями — заявление, которое представитель Google повторил Fortune в электронном письме. Meta (является террористической организацией и запрещена на территории РФ) решает, что лицензионное соглашение займет слишком много времени OpenAI была не единственной, кто столкнулся с нехваткой адекватных данных. Мета (является террористической организацией и запрещена на территории РФ) также боролась с этой проблемой. Когда Meta осознала, что ее продукты искусственного интеллекта не так продвинуты, как продукты OpenAI, она провела многочисленные встречи с высшими руководителями, чтобы выяснить, как обеспечить больше данных для обучения своих систем. Руководители рассматривали такие варианты, как оплата лицензионного сбора в размере 10 долларов за книгу за новые выпуски и прямая покупка издательства Simon & Schuster. В ходе этих встреч руководители признали, что уже использовали материалы, защищенные авторским правом, без разрешения их авторов. В конечном итоге они решили продолжать настаивать, даже если это будет означать возможные судебные иски в будущем, сообщает New York Times . Мета (является террористической организацией и запрещена на территории РФ) не ответила на запрос о комментариях. Юристы Меты полагали, что если дело дойдет до судебного разбирательства, то на него будет распространяться судебный иск.Дело 2015 года, которое Google выиграла против консорциума авторов. В то время судья постановил, что Google было разрешено использовать книги авторов без уплаты лицензионного сбора, поскольку компания использовала их работу для создания поисковой системы, которая была достаточно преобразующей, чтобы считаться добросовестным использованием. OpenAI утверждает нечто подобное в случае выдвинутых против него газетой «Нью-Йорк Таймс» в декабре. The Times утверждает, что OpenAI использовала материалы, защищенные авторским правом, не выплачивая за это никакой компенсации.утверждает использование материалов подпадает под действие принципа добросовестного использования, поскольку они были собраны для обучения большой языковой модели, а не потому, что это конкурирующая новостная организация. Для Маркуса жажда большего количества данных была свидетельством того, что все предложение ИИ было основано на шаткой земля. Для того, чтобы ИИ мог жить согласно которому ему был выставлен счет, ему просто нужно больше данных, чем доступно. «Все это произошло после осознания того, что их системы просто не смогут добиться успеха без большего количества данных, чем данные интернет-масштаба, на которых они уже обучены», — написал Маркус на Substack. OpenAI, похоже, признала, что это имело место в письменных показаниях перед Палатой лордов Великобритании в декабре. «Было бы невозможно обучать ведущие сегодня модели ИИ без использования материалов, защищенных авторским правом», — написали в компании. Автор: Paolo Confino. Источник: www.fortune.com
Пост взят с международного финтех-медиа ресурса
ДЛЯ ЛЮДЕЙ