Эпоха AI-агентов: рынок, технологии и честные прогнозы

Эпоха AI-агентов: рынок, технологии и честные прогнозы

Спешим представить: Андрей Татаринов, СЕО/СТО агентства Эпоха Восемь epoch8.ru, ex‑Google, ex‑Яндекс.

Эпоха Восемь с 2017 года разрабатывает проекты в области машинного обучения, компьютерного зрения и анализа данных, имеет в своем составе более 30 AI/ML‑инженеров. 

Можно сказать, что у нас в гостях не просто специалист, а целая компания с соответствующим опытом и знаниями. Пользуясь случаем, мы решили задать более редкие вопросы, выходящие за рамки статьи, которую мы собирались обсуждать.

В.O. (Влад Орлинскас): Здравствуйте, Андрей, вы решаете главную проблему современного AI – проблему точности. Это требует высокой технической экспертизы. Скажите честно, насколько тяжело сегодня хантить таланты? Реально ли вообще найти инженеров под такую специфику?

A.Т. (Андрей Татаринов): У нас исторически сложился наш собственный пайплайн собеседований: мы очень любим нанимать джунов с большим потенциалом, но, возможно, без прокачанных hard skills. В найме мы практически не смотрим на резюме, возраст и другие стандартные HR‑флажки. Сначала мы даем кандидату небольшое тестовое задание, проверяем его, даем фидбек и, если тестовое хорошее, приглашаем на собеседование. На собеседовании – обязательная live‑coding сессия и ответы на технические вопросы. В работе новый человек попадает в команду с другими, более опытными инженерами и постепенно перенимает их практики.

Если честно, у нас за все время, кажется, не было ни одного случая, когда мы "с рынка" смогли бы нанять готового senior‑инженера.

В.O.: Спасибо за инсайт про найм, это многое объясняет про рынок. Кажется, с самими LLM происходит то же самое. Можем ли мы провести параллель с джунами? Пару лет назад GPT вела себя как неуверенный стажер, а сегодня стала заметно точнее. Это решили "костылями" и внешним обвесом или она реально выросла в hard skills?

A.T.: И то, и другое, но важно разделить уровни.

Во‑первых, базовые модели действительно стали сильнее, но не потому, что к ним просто "прикрутили костыли". Современные версии проходят более качественный pretraining и серьeзный post‑training: улучшено следование инструкциям, устойчивость ответов и поведение в сложных случаях.

Во‑вторых, сильно эволюционировал пост‑трейн этап. Обучение с человеческой обратной связью (RLHF и близкие подходы) стало стандартом: модели учат не просто генерировать правдоподобный текст, а отвечать по инструкции, отказываться от запрещенных запросов и вести себя предсказуемо в прикладных сценариях. Это не увеличивает "интеллект" напрямую, но резко повышает полезность.

В‑третьих, прогресс в задачах рассуждения во многом связан не с "новым типом моделей", а с методами инференса. Техники вроде chain‑of‑thought prompting или self‑consistency позволяют лучше решать задачи логики, математики и кода, снижая количество ошибок именно в reasoning‑задачах.

И наконец, огромный скачок произошел за счет внешней архитектуры вокруг модели. Длинные контекстные окна, вызовы инструментов и API, выполнение кода, поиск и RAG позволяют компенсировать ограничения самой модели: считать точно, работать с актуальными данными и опираться на внешние источники знаний, а не на "память" весов. При этом длинный контекст сам по себе не гарантирует понимания – качество по‑прежнему зависит от структуры данных и retrieval‑логики.

Если проводить аналогию с джунами: модель стала не только умнее сама по себе, но и начала работать в нормальной инженерной среде с калькулятором, документацией и коллегами. И именно сочетание этих факторов дало ощущение резкого взросления.

В.О.: Если попробовать спрогнозировать следующий качественный скачок: какие из этих методов еще имеют запас прочности, а какие уже подходят к своему потолку? Что известно наверняка, а где приходится полагаться на ваше чутье как специалиста, пытаясь спрогнозировать следующий апдейт?

A.T.: Если говорить про следующий качественный скачок, то я бы сформулировал главную инженерную проблему так: у LLM нет явной и проверяемой модели состояния мира и динамики, которую можно последовательно обновлять. Базово это все еще next‑token predictor, как очень мощный автокомплит.

Из‑за этого модели остаются нестабильными в задачах, где нужно держать непротиворечивое состояние, соблюдать временные и причинные ограничения и планировать цепочки действий на длинном горизонте. Это видно по тому, что temporal reasoning (временное рассуждение) и long‑horizon planning (планирование) выделены в отдельные бенчмарки и обзоры, и там у LLM все еще много провалов.

Поэтому сейчас заметное внимание у крупных игроков уходит в world models и симуляционные среды: например, DeepMind публично продвигает Genie‑класс моделей, которые симулируют реальный мир (например, склады), а NVIDIA – Cosmos как платформу для "physical AI". Это выглядит как ставка на то, что агентам нужна среда, где можно "прогонять" действия и получать устойчивую обратную связь о том, как меняется мир.

Но это не единственная недостающая деталь. Для реального прорыва в агентных сценариях также критичны:
– долгосрочная память и менеджмент памяти,
– явное долгосрочное планирование под ограничения,
– и безопасное "обучение по ходу дела" (continual learning / self‑improvement), где сейчас много нерешенных проблем и даже рисков деградации поведения у самообучающихся агентов.

Что больше похоже на "чутье": приведет ли ставка на world models к следующему скачку в обычных продуктовых чат‑ассистентах, или это в первую очередь прорыв для robotics/embodied AI и симуляторов.

В.O.: Это действительно интересно. Мне кажется, что текущий хайп вокруг агентов опережает технологии. Не мешает ли это вашему бизнесу? Часто ли вы сталкиваетесь с тем, что у заказчиков сформированы завышенные или совсем нереалистичные ожидания?

A.T.: Да, с завышенными ожиданиями сталкиваемся регулярно. Типичный пример: заказчик говорит: "У нас есть база документов – давайте загрузим ее в AI, и он сам всё поймет и начнет правильно отвечать." А когда начинаешь разбирать источники, выясняется, что там есть устаревшие версии, дубли, противоречия, а иногда – просто нет тех ответов, которые реально нужны бизнесу. В такой ситуации модель без нормальной структуры знаний и retrieval‑логики будет отвечать нестабильно, а местами начнет додумывать.

Здесь работает старое правило garbage in ‑ garbage out: если входные данные "грязные", то на выходе мы получим такую же "грязь", только красиво сформулированную.

Но у хайпа есть и плюс: он расширил окно внимания и бюджетов – AI обсуждают даже там, где раньше это было “слишком IT‑шно”, например в производстве или сельском хозяйстве. И часто это приводит к очень прикладным задачам компьютерного зрения: визуальная инспекция и детекция дефектов на линии, мониторинг и измерение животных по видео/фото.

Многие из этих кейсов не про генеративный AI, но общий шум снижает порог входа: людям проще сформулировать задачу, выбить пилот и начать внедрение.

В.O.: Повышение производительности труда должно положительно повлиять на экономику. Насколько вообще ваши услуги доступны для небольшого бизнеса, например, в сфере IT? С чего начать руководителю и каков порог входа? В какой момент к вам лучше идти: уже с четким видением или можно обратиться за консультацией на раннем этапе?

A.T.: Обычно наши клиенты хотят внедрить AI/ML‑решения, чтобы автоматически делать скучную работу – ту, которую руками делать долго, дорого и где легко ошибиться. Так, например, компьютерное зрение очень помогает в складских операциях и на сборочных линиях: это отслеживание дефектов, пути посылки, корректности техпроцессов или сборки заказов. А если в компании много экспертов, которые отвечают на узкоспециализированные вопросы, поможет внедрение AI‑ассистента. Его можно научить следовать логике эксперта и переложить на него большой объем работы в электронной коммерции, юриспруденции, финансах или поддержке.

Лучше всего начинать с узкой задачи. Простой тест такой: если человек стабильно решает задачу по тем же наблюдениям, которые будут у модели (то же видео/фото/документы), и можно формализовать метрику качества, то у автоматизации хороший шанс. Например, мы просим записать видео с конвейера: если человек видит на нем дефекты, то увидит и машинное зрение. С AI‑ассистентами проверка аналогичная: мы даем человеку документ и вопрос. Если человек может найти ответ, то и ассистент сможет. Поэтому наша общая рекомендация – не пытаться автоматизировать всё и сразу, а выбрать небольшой бизнес‑процесс, внедрить решение там и затем расширяться.

По поводу того, в какой момент к нам лучше идти: как правило, приходят на ранней стадии, с идеей, чтобы узнать, решаем ли сценарий автоматически. От идеи до финального решения "да, внедряем!" проходит довольно много времени – полгода и больше, – и это абсолютно нормально.

В.O.: Судя по вашему объяснению, мои старые способы поставить AI в тупик ‑ вроде галлюцинаций или незнания свежих новостей – окончательно устарели. Подскажите, на чем сегодня можно подловить модель? Может, у вас есть свои "фишки"? Та же токенизация ‑ это все еще рабочий способ сломать логику чат‑бота на задачах с буквами?

A.T.:  Да, задачи на уровне символов, посчитать буквы или перевернуть слово, все еще сложны из‑за токенизации. LLM действительно очень продвинулись, и прежние простые "трюки", чтобы их запутать, больше не работают. Например, раньше можно было добиться, чтобы LLM признала, что 25+25=55, а сейчас это уже не так просто. Тем не менее, у моделей по‑прежнему есть уязвимые зоны, на которых их можно "подловить".

Во‑первых, галлюцинации – когда модель уверенно выдает за правду несуществующие факты, вымышленные характеристики продукта или ссылки на статьи. Хотя частота галлюцинаций снизилась, полностью проблему не устранили: модель по‑прежнему может дать правдоподобный по статистике, но неверный ответ.

Во‑вторых, сложные логические задачи и вопросы на здравый смысл. Есть такой бенчмарк RiddleBench, он содержит более 1700 задач на логику, родственные связи и следование правилам. На текущий момент даже лучшие модели решают только около 60% из них. Они часто ошибаются в последовательностях, слабо умеют себя исправлять, а перестановка условий сбивает их с толку.

Третье – математика и счет. Это традиционно слабое место: поскольку модели оперируют статистикой текстов, они делают арифметические ошибки. Здесь есть workaround: модели могут сгенерировать программный код, например, на Python, для вычислений, но напрямую "посчитать в уме" не могут.

Справедливости ради, при генерации кода модели тоже ошибаются: неправильно понимают условия, не учитывают краевые случаи или используют несуществующие библиотеки. Также уязвимость проявляется в диалогах с длинным контекстом: модель может начать противоречить своим предыдущим сообщениям или забывать сказанное.

В качестве резюме: да, современные LLM стали гораздо устойчивее, но системные ограничения никуда не делись. Но, несмотря на это, текущего уровня развития уже достаточно для огромного количества полезных прикладных задач.

В.O.: Андрей, спасибо. Получился насыщенный разговор.

Мы начали с найма джунов, а закончили фундаментальными проблемами понимания мира нейросетями. Будем надеяться, что пока алгоритмы осваивают причинно‑следственные связи, бизнес успеет подготовить для них качественные данные. Спасибо Андрею, что поделился с нами экспертизой, а вам, дорогие читатели, – за внимание.

Если вы хотите снова услышать Андрея, вы можете проголосовать за гостя. Так мы скорее устроим новое интервью или закажем статью.

Проголосовать за гостя: