Как с вами связаться

Введите сообщение

Как с вами связаться

Введите сообщение

Аватар сообщества LIGHT NEWS

LIGHT NEWS

НОВОСТИ НЕ ПРО РЫНОК

Масштабное уничтожение книг для обучения AI: что скрывается за этой практикой?

1 851
Масштабное уничтожение книг для обучения AI: что скрывается за этой практикой?

Как Anthropic купила миллионы книг, чтобы обучить искусственный интеллект. В судебном деле о праве Anthropic использовать книги для обучения ИИ есть интересный момент. В нем описан процесс, как компания собирала книги для своей библиотеки и что с ними происходило дальше. Это была целая спецоперация. Представьте масштаб действия. Если хотите прочитать полное решение суда, вот оно). Сначала Anthropic скопировала несколько пиратских библиотек – около семи миллионов книг. Затем компания решила пойти более легальным путем и наняла Тома Терви, который до этого руководил отделом партнерских отношений в проекте Google по сканированию книг. Задача Терви заключалась в поиске новых способов получения книг, а точнее – в получении «всех книг в мире» без юридических, практических и деловых сложностей. Он отправил письма крупным издательствам с просьбой предоставить лицензии на книги для обучения ИИ, но этот путь не увенчался успехом. Тогда Терви и его команда переключились на дистрибьюторов и книжные магазины. Они начали скупать бумажные книги за «много миллионов долларов». Часто это были подержанные книги. Дальше началось самое интересное. Чтобы книги можно было использовать для обучения ИИ, их нужно было перевести в электронный формат. Согласно решению суда, этим занимались сторонние организации. Процесс выглядел так: с каждой книги снимали обложку, разделяли на страницы и сканировали. Получалась PDF-версия с машиночитаемым текстом, а бумажную версию уничтожали. Издание ArsTechnica пишет, что такое деструктивное сканирование – обычная практика при оцифровке книг. Anthropic не первая компания, которая прибегает к этому методу. Однако масштаб впечатляет. Google при оцифровке использует специальные камеры, чтобы книги оставались в целости, но этот способ требует больше времени и денег. Теперь у Anthropic есть огромная электронная библиотека из миллионов книг, доступ к которой есть только у компании. В публичный доступ ничего не выложено. С одной стороны, компания честно купила эти книги и может делать с ними что хочет. С другой стороны, уничтожать миллионы книг – это дико. Интересно узнать о технической составляющей процесса. Сначала нужно было купить и собрать в одном месте миллионы книг, затем разобрать их на листы и отсканировать. Наверняка был автоматизирован процесс. Утилизация миллионов книг – тоже непростая задача, хотя теоретически компания могла подзаработать на сдаче макулатуры. Об этом в решении суда не говорится, но, возможно, когда-нибудь всплывет эта информация. Источник: The Edinorog

Войти

Войдите, чтобы оставлять комментарии

Аватар пользователя 'АДМИНИСТРАТОР'

АДМИНИСТРАТОР

25ac12c4-48cf-4bb6-a157-d0abf096f08a.png

mondiara.com — социальная сеть про фондовый рынок России и мира

Другие новости сообщества / НОВОСТИ НЕ ПРО РЫНОК

Вы уверены, что хотите выйти из аккаунта?