Article

Кто на самом деле учит нейросети. Цена разметки данных

"Призрачная работа – это человеческий труд, благодаря которому системы искусственного интеллекта выглядят автономными. Миллионы людей по всему миру выполняют небольшие задачи, благодаря которым системы искусственного интеллекта могут работать", – Мэри Л. Грей, Сиддхарт Сури, "Призрачная работа".

Что бы вы сказали, если бы увидели подростка, который по восемь часов в день вынужден просматривать сотни изображений с убийствами, насилием и порнографией? Скорее всего, это вызвало бы возмущение. Возможно, даже шок. Любой нормальный человек задастся вопросом: кто вообще может заставлять подростка делать такую работу и что будет с его психикой после месяцев или лет подобного опыта?

А теперь представьте, что это не гипотетическая ситуация, а реальность. И именно такие задачи стоят за развитием современных систем искусственного интеллекта.

Когда пользователь открывает чат‑бот, просит написать письмо или объяснить сложный термин, создается ощущение, что перед ним работает самостоятельный интеллект. Интерфейс аккуратный, ответы приходят мгновенно, система выглядит почти автономной.

Но за этим технологическим фасадом скрывается гораздо менее футуристическая картина. Прежде, чем алгоритм научится распознавать кошку на фотографии, отличать дорожный знак от фонаря или определять, содержит ли текст угрозу, миллионы примеров должны быть просмотрены и размечены вручную. Кто-то должен указать машине, где находится объект на изображении, что происходит в тексте и почему это важно.

И этот "кто‑то" – живые люди.

Этот процесс называется data annotation.

По оценкам аналитической компании Grand View Research, глобальный рынок разметки данных уже превысил 2,2 миллиарда долларов и может вырасти до 17 миллиардов к 2030 году. На бумаге это выглядит как бурно растущая технологическая индустрия. Но если посмотреть внимательнее, возникает неудобный вопрос: кто именно выполняет всю эту работу?

Большая часть задач выполняется миллионами людей на цифровых платформах. Они обводят объекты на изображениях, классифицируют тексты, отмечают опасный контент. Именно эти действия превращают необработанный поток информации в обучающий материал для алгоритмов. Оплата за такие задания часто составляет всего несколько центов.

Исследователи называют этот труд ghost work – "призрачной работой". То есть система, которая для пользователя выглядит как умная машина, на самом деле опирается на огромную, но почти невидимую сеть человеческого труда.

И часто этот труд выглядит откровенно пугающе.

Детский труд и токсичный контент

"Работники рассказывали, что им приходилось читать подробные описания насилия, сексуального насилия и убийств.", – Билли Перриго, TIME.

Если мы уже знаем, что эта индустрия существует и что миллионы людей занимаются разметкой данных, кто именно делает эту работу?

Ответ звучит гораздо неприятнее, чем хотелось бы.

Одной из самых тревожных сторон индустрии разметки данных является участие несовершеннолетних работников. В странах Южной и Юго‑Восточной Азии подростки получают доступ к платформам микрозадач через аккаунты родственников или посредников. Формально платформы запрещают детский труд. На практике же цепочки субподрядчиков настолько длинные и непрозрачные, что реальной проверки возраста часто просто нет.

Работа может начинаться вполне безобидно. Подросток открывает задания: отметить объекты на изображениях, классифицировать фотографии, распределить картинки по категориям. Но довольно быстро среди таких задач появляются и другие.

Чтобы алгоритмы научились распознавать сцены насилия, экстремизма или сексуальной эксплуатации, кто‑то должен сначала вручную просмотреть именно такие материалы.

И здесь снова возникает вопрос к читателю. Представьте подростка, который каждый день открывает задания и видит изображения жестокости, убийств, изнасилований, порнографии. Представьте, что он делает это не один, а сотни раз за смену!

Что он чувствует? Как его психика вообще выдерживает такой поток информации? Какими людьми становятся подростки, для которых подобный контент становится частью ежедневной работы?

"Дети и подростки подвержены опасному контенту во время работы в интернете", – говорится в исследовании Австралийского института криминологии.

Но разве слово "подвержены" действительно описывает происходящее? Или правильнее сказать как есть: некоторые подростки вынуждены смотреть на вещи, которые взрослые люди с трудом выдерживают даже один раз?

И ради чего? Ради того, чтобы алгоритм научился лучше фильтровать контент…

Цифровой колониализм

"Системы искусственного интеллекта часто создаются с использованием труда и данных, извлеченных из стран Глобального Юга", – исследование "Алгоритмический колониализм"

Теперь стоит задать еще один неудобный вопрос. Если эта индустрия стоит миллиарды долларов, почему основная работа выполняется в странах, где люди получают за нее несколько долларов в день?

Сегодня существует более 160 платформ цифрового труда, на которых зарегистрированы десятки миллионов работников, выполняющих задачи по разметке данных, модерации контента и обучению алгоритмов.

И большая часть этой рабочей силы сосредоточена в странах Глобального Юга. Это совпадение или все-таки экономическая логика?

Чем дешевле человеческий труд, тем дешевле обучить алгоритм.

Когда в Венесуэле произошел валютный кризис, тысячи специалистов начали искать удаленную работу. Инженеры, преподаватели, студенты начали выполнять задания по разметке данных за 1‑2 доллара в час.

Представьте эту ситуацию: человек с университетским образованием сидит дома и часами размечает изображения или тексты за деньги, которые в развитых странах иногда не стоят даже чашки кофе. Это технологическая революция или новая форма глобального неравенства?

"Технологические компании опираются на труд работников из экономически уязвимых регионов", – говорится в расследовании Центра Пулитцера.

Центры разработки остаются в Кремниевой долине. Инвесторы получают прибыль. А огромная часть человеческого труда переносится туда, где люди готовы работать практически за любые деньги.

Разве это не напоминает старую модель мировой экономики, просто перенесенную в цифровую эпоху?

Психологические травмы модераторов

"Работникам в Кении платили менее 2 долларов в час за разметку токсичного контента для ChatGPT.", – Билли Перриго, TIME

Вопрос оплаты не самый страшный. Гораздо страшнее другое: с каким контентом приходится работать этим людям.

Одно из самых известных расследований касается кенийских работников, которые занимались разметкой токсичного контента для систем искусственного интеллекта. Некоторые из них получали 1,32 доллара в час. За эти деньги они часами читали тексты с описаниями изнасилований, жестоких убийств и других экстремальных сцен.

Сколько времени нужно, чтобы подобные вещи начали проникать в голову? Чтобы они начали возвращаться в виде ночных кошмаров? Чтобы человек перестал воспринимать мир как безопасное место?

Работники рассказывали о бессоннице, тревожности, эмоциональном выгорании.

"Постоянное воздействие травмирующего контента может вызывать симптомы, схожие с посттравматическим стрессовым расстройством", – исследование Zevo Health.

Но если эта работа действительно может ломать психику, почему индустрия почти не говорит о психологической поддержке таких работников? Почему их имена остаются неизвестными?

И почему в разговорах об искусственном интеллекте мы всегда говорим о технологиях, но не о людях?

Когда специалисты обучают собственную замену

"Эксперты фактически обучают алгоритмы выполнять те задачи, которым они сами были обучены", – говорится в издании Built In.

Парадоксально, но в обучении алгоритмов все чаще участвуют высококвалифицированные специалисты.

Все дело в том, что платформы предлагают врачам, инженерам и исследователям выполнять задания по разметке специализированных данных. В медицинских проектах это может быть классификация рентгеновских снимков или анализ диагностических изображений.

Оплата обычно символическая – несколько долларов за задание. Для многих специалистов это выглядит как небольшой дополнительный доход. Однако фактически они передают алгоритмам свой бесценный профессиональный опыт.

Со временем такие системы начинают выполнять часть задач автоматически. В экономике этот процесс называют дескиллингом, то есть постепенным обесцениванием профессиональных навыков.

Получается странная ситуация: специалисты участвуют в создании инструментов, которые потенциально могут снизить ценность их собственной профессии.

Женская сторона "призрачной работы"

"Многие работники выполняют тысячи микрозадач без какой-либо гарантии занятости или социальных льгот", – исследование организации AlgorithmWatch.

Среди работников платформ разметки данных женщины занимают заметную долю. Исследования цифрового труда показывают, что именно они чаще оказываются в наиболее нестабильной части этой экономики.

По данным Ghost Work, женщины составляют примерно 40‑55% работников микрозадач на крупнейших платформах цифрового труда. В некоторых регионах эта доля еще выше. Например, в странах Латинской Америки и Юго‑Восточной Азии женщины могут составлять до 60% исполнителей задач по разметке данных.

Такая занятость часто выглядит привлекательной: работа доступна из дома, не требует формального трудоустройства и может выполняться в свободное время. Однако именно эта "гибкость" превращается в источник нестабильности.

Платформенная работа почти никогда не сопровождается трудовыми гарантиями. Согласно Fairwork Report 2023, крупнейшие платформы цифрового труда получают 0‑1 балл из 10 по критериям справедливой оплаты, прозрачности алгоритмов и социальной защиты работников.

Это означает, что исполнители фактически работают без базовых трудовых прав: нет минимальной оплаты труда, оплачиваемых больничных, отпусков и механизмов защиты от произвольной блокировки аккаунтов.

В результате многие женщины оказываются в ситуации "тройного бремени". Потому что, помимо оплачиваемых микрозадач, они продолжают выполнять неоплачиваемую домашнюю работу и уход за детьми.

К тому же, задания распределяются автоматически, и работники не знают, почему их доход может резко упасть. Ваш аккаунт могут заблокировать без объяснения причин и не дать возможности оспорить решение.

Таким образом, "призрачная работа" часто становится для женщин не гибкой возможностью заработка, а нестабильной формой цифровой зависимости, где доход полностью определяется алгоритмами платформ.

Авторский эксперимент

Пока я работала над статьей, мне стало интересно, как выглядит эта индустрия изнутри. Я решила зарегистрироваться на нескольких платформах, где людям предлагается выполнять задания по обучению искусственного интеллекта.

И тут всплыла неожиданная деталь – на некоторых ресурсах регистрация оказалась недоступна для моего региона. Например, на одной популярной платформе система сообщила мне, что сервис не работает в Европе.

Это выглядит странно, потому что индустрия, которая позиционирует себя, как глобальная, на практике работает довольно выборочно. (В какой‑то момент я даже поймала себя на мысли, что, возможно, следующий этап моего журналистского эксперимента должен пройти где‑нибудь в Африке).

В итоге мне удалось зарегистрироваться на платформе, название которой опустим. Процедура заняла всего несколько минут. Система предложила войти через аккаунт Google. Никаких документов или подтверждения возраста у меня не попросили. В анкете нужно было указать только базовую информацию: пол, навыки и языки, которыми владеешь.

После регистрации мне предложили небольшое оценочное задание. Оно оказалось довольно простым – работа с текстами, без шокирующего контента. По уровню сложности это напоминало обычные школьные задания, например, прочитать текст и оценить ответы.

Затем система попросила указать уровень образования и добавить короткое резюме в свободной форме. На этом регистрация фактически завершилась.

Если тест будет пройден успешно, платформа обещает предоставить реальные задания за оплату.

Этот небольшой эксперимент показал сразу несколько вещей. С одной стороны, вход в индустрию может быть удивительно простым: несколько минут регистрации, и человек уже оказывается внутри системы. С другой стороны, реальные задания, условия работы и уровень оплаты становятся понятны только после прохождения внутренних тестов.

Невидимая цена искусственного интеллекта

Когда пользователь задает вопрос чат‑боту или получает мгновенный ответ от алгоритма, создается впечатление, что взаимодействие происходит исключительно с технологией.

Но за каждым таким ответом стоит огромный массив человеческого труда. Труда, часто каторжного, низкооплачиваемого и приносящего непоправимый вред психике.

При этом люди, которые обводят объекты на изображениях, читают токсичные и даже опасные тексты, классифицируют медицинские снимки и проверяют миллионы данных, остаются почти невидимыми.

И именно этот труд делает возможным существование современных систем искусственного интеллекта.

Вопрос, который все чаще звучит в академических и журналистских исследованиях, заключается не в том, насколько быстро развивается технология.

Вопрос другой. Какую цену платят люди, которые обучают эти системы?

Кто на самом деле учит нейросети. Цена разметки данных

Детский труд и токсичный контент

Цифровой колониализм

Психологические травмы модераторов

Когда специалисты обучают собственную замену

Женская сторона "призрачной работы"

Авторский эксперимент

Невидимая цена искусственного интеллекта

Read next

Курс выживания при восстании машин. Маскировка. Демонтаж

ИИ-робот своими руками. Часть 1

Ужасы поиска сотрудников в эпоху ИИ