Yambda — платформа для разработки рекомендательных систем: большие данные от Яндекса
Яндекс сделал доступным для всех Yambda — один из самых крупных в мире наборов данных для развития рекомендательных систем. Учёные, исследователи и вузы со всего мира теперь могут использовать Yambda для тестирования и улучшения рекомендательных алгоритмов. Yambda доступен в трёх вариантах: полная версия содержит 5 миллиардов данных, уменьшенные — 500 миллионов и 50 миллионов. Исследователи могут выбрать тот вариант, который лучше всего подходит для их задачи и имеющихся вычислительных ресурсов. Данные Yambda и код доступны на HuggingFace. Александр Плошкин, руководитель по развитию персонализации в Яндексе, отметил важность рекомендательных алгоритмов для поиска товаров, фильмов, музыки и других. Эти алгоритмы лежат в основе интернет-магазинов и онлайн-кинотеатров. Для развития алгоритмов нужны большие качественные данные. Опенсорс-наборы часто малы или устарели, так как компании редко их публикуют. Это создаёт разрыв между наукой и бизнесом. Большие открытые данные, такие как Yambda, решают эту проблему. Например, ImageNet дал толчок развитию компьютерного зрения. Yambda создан на основе данных Яндекс Музыки и включает агрегированные прослушивания, лайки, дизлайки и характеристики треков. Все данные анонимизированы, что обеспечивает конфиденциальность. Yambda подходит для оценки качества рекомендательных систем и привлекает молодых учёных. Источник: www.yandex.ru
Пост взят с международного финтех-медиа ресурса
ДЛЯ ЛЮДЕЙ