Несколько дней назад издание The Wall Street Journal сообщило, что многие крупные ИИ компании испытывают сложности с поиском и сборкой источников качественных данных для тренировки нейросетей. Теперь же в The New York Times появилась информация о том, как некоторые из них справляются с данной проблемой. В некоторых случаях предпринимаемые компаниями меры ожидаемо затрагивают «серую зону» авторских прав в сфере ИИ. К примеру, OpenAI транскрибировала миллионы часов видео YouTube для тренировки GPT-4.
По данным издания, инженеры OpenAI разработали модель транскрипции аудио Whisper, чтоб преодолеть дефицит качественной информации для обучения своей наиболее продвинутой большой языковой модели. В компании знали о юридической сомнительности такого шага, но посчитали, что привлечение контента YouTube с целью тренировки ИИ подпадает под условия доктрины добросовестного использования и не требует получения разрешения от владельцев авторских прав. Президент OpenAI Грег Брокман лично принимал участие в процессе отбора видео для транскрибирования. Представитель компании Линдси Хелд объяснила, что подобные меры были необходимы для поддержания глобальной конкурентоспособности ИИ-моделей, которые нуждаются в формировании уникальных баз данных для обучения и тренировки, а видео на YouTube способствуют расширению их понимания механизмов мира. OpenAI активно использует общедоступные данные и заключает партнёрские программы для получения закрытых данных, а также рассматривает альтернативу в виде генерирования собственных синтетических баз данных.
Стоит отметить, что правила Google и YouTube запрещают несанкционированную загрузку и транскрибирование контента. По словам представителя Google Мэтта Брайанта, на уровне компании официально не было известно о том, что OpenAI незаконно использовала видео для тренировки своих продуктов. Однако, по данным The New York Times, некоторые люди всё же знали о происходящем, но не предприняли никаких мер против действий конкурента, поскольку Google также активно использует YouTube контент для обучения собственных ИИ моделей якобы исключительно по согласию авторов видео. Более того, некоторые источники сообщают, что в июне 2023 года Google скрыто обновила некоторые аспекты своей политики конфиденциальности, чтобы расширить возможности использования контента, находящегося в открытом доступе, включая такие сервисы, как Google Docs и Google Sheets.
Журналисты NYT пояснили, что в поиске данных для развития ИИ моделей многие компании обращаются к любым доступным в сети источникам. К примеру, OpenAI ещё в 2021 году обсуждала потенциал YouTube, всевозможных подкастов и аудиокниг, исчерпав такие ресурсы, как Github, базы данных онлайн-шахмат и даже содержимое сервиса Quizlet. Meta также испытывает трудности с поиском контента для развития своих моделей. На их счету все доступные англоязычные книги, эссе, поэмы и новостные статьи в интернете, потому следующим шагом для Meta станет покупка книжных лицензий либо даже крупных издательств. По расчётам The Wall Street Journal, уже к 2028 году все эти компании могут зайти в тупик, поскольку темпы освоения контента привысят темпы его естественной генерации. Потому, вероятно, в будущем разработчикам ИИ моделей действительно прийдётся перейти на синтетические данные либо внести изменения в учебные программы нейросетей, чтобы те могли извлекать больше знаний из ограниченного объёма данных.