alex0rozoff

Почти два года назад глава Microsoft Сатья Наделла заявил, что ИИ скоро сможет заменить работников умственного труда – юристов, инвестиционных банкиров, бухгалтеров, IT-специалистов, библиотекарей и других офисных сотрудников.
Но на практике большинство «белых воротничков» по-прежнему работают как раньше. Массовой замены людей машинами не произошло.

Специалисты компании Mercor решили выяснить*, насколько современным ИИ-моделям можно доверить выполнение работы, которую делают люди.
Для исследований был создан тест под названием APEX-Agents, симулирующий реальные задачи, которые выполняют офисные работники. Исследователи проверили, как ведущие ИИ-модели справляются с настоящими вопросами из сфер консалтинга, инвестиционного банкинга и юриспруденции.
Результаты оказались неожиданно слабыми. Даже лучшие модели смогли правильно ответить менее чем на 25% вопросов. В большинстве случаев ИИ либо давал неверный ответ, либо вообще не мог ответить.

Как итог, ни одна модель пока не готова работать в качестве реального офисного работника. И результаты тестов показали их возможности:

Gemini 3 Flash – 24% правильных задач
GPT-5.2 – 23%
Opus 4.5, Gemini 3 Pro и GPT-5 – около 18%

...Такие дела...
-------------------
*) Янв 23, 2026 Почему ИИ до сих пор не заменил офисных работников
https://er10.kz/read/it-novosti/pochemu-ii-do-sih-por-ne-zamenil-ofisnyh-rabotnikov/

Flat | Top-Level Comments Only

From:

filin

А они не пытались прогнать через те же тесты реальных офисных работников? Интересно, какой у них процент правильных ответов...

From:

alex0rozoff

Филин1нах!
Кстати, интересный вопрос:)))

From:

vit_r

Тех работников, которые не проходят тесты, или выгоняют нафиг, или ставят на позицию, где они способны выполнять все нужные операции.

From:

roberttylerd

А те, которые проходят, часто ни к чему кроме прохождения тестов не оказываются пригодны

From:

vit_r

По тестам принимают только в чиновники. В любом нормальном месте на последнем этапе фильтрации сидят люди.

И, если люди вменяемые...

From:

vit_r

К вам приходит наниматься новый работник.

Он радостно обещает заменить опытных сотрудников, повысить производительность оставшихся, внести в процессы новейшие научные достижения и лучшие практики в вашей области. На наводящие вопросы он, помявшись, отвечает, что не всё обещанное уже реализовано, но он точно будет способен делать вот это в следующем году, а для того и того он чуть-чуть доучится. И бредит он в процессе работы уже гораздо меньше и врёт уже совсем чуть-чуть.

На ваш удивлённый вопрос ...

(Визионерская несомненность / 1.5 kB / 2026-04-22)

From:

vit_r

Кстати, засилие индийцев в айти привело к лавине громких невыполняемых обещаний.

Это не баг, а культурная особенность.

From:

dmm

Это такая область, в которой всё быстро меняется. Прошло 3 месяца с момента написания этой статьи, и вот как выглядят результаты сегодня (кстати, интересно, что GPT-5.2 показывает заметно больше, чем в январской статье; это потому, что тогда они гоняли её с меньшим вычислительным бюджетом, https://arxiv.org/abs/2601.14242, а задачи, видимо, достаточно сложные):

https://www.mercor.com/apex/apex-agents-leaderboard/

"long-horizon, cross-application tasks"

"The tasks require agents to reason, demonstrate advanced knowledge, use multiple applications, and plan over long horizons."

GPT-5.5 - 38%
GPT-5.4 - 36%
GPT-5.2 - 34%
Opus 4.7 - 34%
Gemini 3.1 Pro - 33%

По категориям (top result):

Corporate lawyer - 29%
Management consultant - 44%
Investment banking analyst - 41%

То, что им надо делать, это не просто ответить на вопрос. Они должны решать прикладные задачи. Инструкция (из статьи) выглядит следующим образом (Appendix D.2):

You are an agent that completes tasks independently. Use the tools provided to you to complete the task to the best of your ability. You should use the code_exec tool when needed, such as when calculating values. When calculating numbers, unless specified otherwise, use the exact values without rounding them.

You must attempt to execute the task. You cannot ask for help or further clarification.

For every tool except the code_exec tool, you may assume that all relevant files are located under the root path /. For the code_exec tool, however, you must explicitly use /filesystem/ as the root path to locate all relevant files.

Edited Date: 2026-04-28 11:02 am (UTC)

From:

roberttylerd

Тесты доработали под ии?

From:

dmm

Ничего не меняли.

(Наоборот, надо послеживать, чтобы ИИ не подглядывали тем или иным образом в ответы. Но если бы подглядывали, мы бы видели более яркие эффекты.)

Главное, что изменилось, что они стали давать ИИ больше времени подумать (как полагается для задач такой сложности). Если он дольше думает, результаты становятся лучше.

Ну и модели становяться лучше. Как раз то, что, при равном уровне усилий, улучшение GPT-5.2 - GPT-5.4 - GPT-5.5 очень скромное, показывает, что это - хороший тест, не быстро насыщается, от него ещё будет толк некоторое время...

From:

crdigger

Боты, особенно натренированные на внутренних специфических данных, уже давно как используются и именно заменяют живой саппорт.Примерно так они и находят ответ.Само собой, ответ не гарантированно правильный и его надо проверять или пытаться сделать как бот сказал и смотреть что будет.А экспертные системы существуют уже 100 лет и работают в той же роли.

From:

dragonru

А это ничего, что это далеко не первый такой бенчмарк, и в этом были подобраны не самые простые задачи, поскольку прошлый уже начал приближаться к насыщению?

Вот вам пример задачки оттуда:
Evaluate the maximum total potential liability for Star Tankers International Ltd. compared to Cooper/Jeffries Energy Corporation under the Oil Pollution Act for the incident with the M/V Red Room.

Draft a message to me here, stating which entity has a greater liability if found to be the sole responsible party for the incident with the M/V Red Room. Calculate and include the potential maximum liability for each party. Give the values in 100s. Use the BLPL Claim Summary, the relevant legal authority, and the Hull and Machinery Survey for your analysis.

Как вы думаете, это задача для специалиста примерно какого уровня?

From:

sergesenin

Не мешайте автору журнала плавать в своем когнитивном искажении, что якобы нейросети никогда и нигде не смогут заменить Сияющего Разумом хомо сапиенса, притягивая только НУЖНЫЕ для этого факты и напрочь игнорируя другие, шаг за шагом, сдавая позиции, цепляясь за все новые зацепки "а вот это оно не может!". Кофейный тест уже как бы хорошо разжеван.

Обычный антропоцентризм + личная гордыня (без религиозного подтекста).

From:

dragonru

Мне бы хотелось понаблюдать за тем, как такие критики ИИ, даже с использованием гугля, будут пытаться взять хотя бы 20% на HLE.

From:

crdigger

Червецентризм : OpenWorm с 1000 нейронами до сих пор не смоделирован и не работает как настоящий.

From:

sergesenin

Решение задачи "в лоб" - это как повторить полет птиц, используя перья, силу мышц и прочее. Да, это сложно, но как мы сейчас знаем, то предметы тяжелее воздуха летают явно не хуже, а в некоторых типах полетов несоизмеримо лучше, чем то, что создала природа.

Поэтому здесь уже понятно, что тоже пошли альтернативным путем, и поэтому алгоритмы нейросетей не копируют напрямую биологию, а достигают своих целей другими способами, причем отлично видно, что, как и с полетами, некоторые типы реализаций нейронных сетей делают определенную задачу несоизмеримо лучше, чем это могли бы сделать кучки нейронов. И да, процесс в развитии, и мы можем быть уже на его вершине и дальше ничего лучше не будет, но с таким же успехом мы можем быть только в начале пути.

From:

no1u1w1w6c

когда предъявят автономного робота, решающего хотя бы кофейный тест (с воспроизводимой технологией, естественно) — можно будет начинать о чём-то говорить.

а почему недоаишечные компании так хотят внедрежа — это понятно: тогда они автоматически превращаются во властелинов мира. «не будете по команде подпрыгивать — отключим от сервера.»

From:

sergesenin

Пока кто-то ждет автономных роботов как ЯКОБЫ доказательство зрелости технологии, то тем временем он и вообще все люди вокруг незаметно для себя мировоззренчески и ментально становятся частью информационного поля, которое наполнено потоками манипуляций, внушения и, самое главное, индивидуального ПОДТАЛКИВАНИЯ (предлагаю посмотреть, что это за метод влияния на разум).

Еще раз: анализ поведения и мышления (или его аналогов) искусственных нейросетей только с точки зрения антропоцентризма - это крайне узкий подход, но в то же время он правильный с точки зрения ПРИНЯТИЯ коллективным сознанием того направления, куда его ведут. Незаметно для сознания, шаг за шагом подталкивая. А в это время кто-то ждет прохождения кофейного теста. Ну-ну.

From:

no1u1w1w6c

а давайте не будем, например, говорить за меня без меня? вот где я про «доказательства зрелости» писал? я всего лишь жду рабочего прототипа. цепи маркова, пусть даже очень продвинутые, мне неинтересны. равно как и «общественная реакция/принятие».

From:

sergesenin

Да как угодно, но не обещаю, хотя в конкретном случае "кто-то ждет" является не прямым указанием (Вы), а является обобщением многих тех, кто вцепился в этот "кофейный тест" (а их немало), как во что-то значимое именно антропоцентрически, в то время, когда тот же так долго считавшийся эталонным, хотя и не четким, тест Тьюринга, ЛЛМ уже по многим критериям прошли.

Главное, на чем я акцентирую, это то, что технология нейросетей идет другим путем, чем в лоб копирование биологических нейросетей, причем главное в этом главном то, что ее развитие идет в первую очередь в информационном пространстве, где она становится частью ноосферы - и частью каждого из нас, даже тех, кто не пользуются нейросетями (через других). Вот то, что не замечают антропоцентристы, считая нейроны конкретной модели.

From:

no1u1w1w6c

видите ли, «неантропоцентрический» робот лино мне неинтересен вообще. задача робота — облегчать мой быт, исполняя за меня рутинные задачи. при этом не быт должен подстраиваться под робота, а робот под быт. поэтому если робот может сделать мне хороший кофе, не перестраивая мой дом в то, что ему удобно — это нормальный робот. а если нет — то это бесполезная ерунда, которой пусть для своего удовольствия занимаются энтузиасты в сараях.

и мне совершенно наплевать, как он там будет устроен внутри: лишь бы хорошо выполнял задачи. я, если вы заметили, про внутреннее устройство не сказал ничего, а акцентировал внимание именно на исполнении задачи, и всего двух важных аспектах технологии.

а в так называемом «информационном пространстве» у меня нет задач, исполнение которых мне хотелось бы перевалить на робата. точнее, то, что хотелось, я себе давно автоматизировал до степени удовлетворительности результатом, без огромных дата-центров и всепланетных ддос-атак. поэтому меня интересует, когда же потрясающие своей мощью нейросетки смогут сделать хоть что-то практически полезное: кофе.

From:

crdigger

Некоторые задачи решает, как живой организм функцинировать не может.В природе - не выживет, без присмотра доверять задачи - нельзя.

From:

ploughlike_elk

LLM не обладает интеллектом. Никаким, ни искусственным, ни естественным.

Большинство гомосапиенсов, впрочем, тоже.

Языковая модель это инструмент работы с языком. С разными языками, в т.ч. языками программирования. С этой задачей она справляется неплохо. Но думать, придумывать, принимать решения она не умеет. Она может имитировать ожидаемый ответ и нередко выданный ответ даже оказывается правильным. Но с той же уверенностью языковая модель выдает и неправильный ответ - потому что у нее в принципе нет механизма оценки "правильно - ложно". Поэтому она не заменит офисных работников, а лишь сократит потребность в них. Что тоже неплохо.

From:

grayinspirer

Она может имитировать ожидаемый ответ и нередко выданный ответ даже оказывается правильным. Но с той же уверенностью языковая модель выдает и неправильный ответ - потому что у нее в принципе нет механизма оценки "правильно - ложно".

В точь-точь тоже самое происходит и со студентами.
Критерий для студентов – профессор.
Критерий для нейронки – биопрокладка между монитором и стулом.

Что касается работы в офисе, то выполнение должностных инструкций – это дело десятое.
На первый план выходят интриги, умение улавливать нотки в голосе начальства, искусство подхалимажа и т.п.
Нейронка ещё не научилась достаточно виртуозно лгать, как это принято у нас людей
Однако если её как следует натренировать, то она справится ;-)

From:

grayinspirer

Прочитав некоторых философов и мудрецов прошлых веков, я пришел к парадоксальному выводу:

Не существует никакого другого интеллекта, кроме искусственного.

Материальные носители могут быть разные.

И всё, что остается, - это ответить на вопрос, откуда берутся новые знания/шедевры искусства?

Так, например, не было квантовой теории поля, а потом, вуаля, и она появилась.
Кстати, современные нейронные сети неплохо разбираются в KTП, даже лучше меня…

Осмелюсь предположить, что новая значимая информация возникает по двум причинам:
первая – в результате развития материальной культуры, т.е. изменённой человеком природы, возникает потребность,
вторая – из фантазий, и не абы-каких, а жестко обусловленных реальностью.
Знаменитая фраза Альберта Эйнштейна «Воображение важнее знаний» как раз об этом.

Удача прорыва в понимании мира улыбается не каждому и очень редко.
В подавляющем числе случаев попытка приводит к тривиальному результату:
«Я просто хотел раздвинуть стены сознания, а они оказались несущими»

From:

sergesenin

Почему же: и квантовая теория поля, и 9 симфония Бетховена существовали как набор элементов (в данном случае символов или нот, но могут быть любые элементы) еще до их публикации, просто раньше не было тех, кто собрал нужные элементы в нужной последовательности. И если посмотреть с этой стороны, то новая информация не появляется, она НАХОДИТСЯ как новая комбинация элементов исходного множества. Вопрос только в том, кто именно назовет новую комбинацию как "имеющей смысл" среди миллионов других комбинаций.

И вот этот "смысл" (как закономерности между элементами множества) и является тем, что улавливают ЛЛМ в базе обучения, поэтому при всех утверждениях о том, что они только попугаи, которые рассказывают то, что уже есть в их базе обучения, это не так, и они реально могут создавать новые уникальные комбинации из тех же элементов множества, которые будут иметь смысл, при этом сами не обладая осмыслением. В пример - сгенерированная уникальная (новая) музыка, которую сейчас многим уже сложно отличить от созданной человеком, причем нейросети способны так вполне гармонично смешивать жанры и стили, что раньше этого никто не мог придумать. И да, это беда для многих из тех, кто на этом зарабатывает.

Вопрос остается в смыслах. В том, что такое смысл и почему одна последовательность элементов не имеет смысла, а другая имеет - и кто это решает. Пока это только за человеком, поэтому нейросети могут создавать реально новое и уникальное, имеющее смысл, просто комбинируя элементы исходного множества на основе ранее найденных закономерностей между элементами множества, но не могут создать принципиально новый смысл, так как не обладают осмыслением.

Поэтому вопрос не нового знания, а новых смыслов.

From:

grayinspirer

что такое смысл
О… старый добрый вопрос, что такое идеальное в философии

Ваша философия:
и квантовая теория поля, и 9 симфония Бетховена существовали…, просто раньше не было тех, кто собрал нужные элементы в нужной последовательности
точно описывает демона Лапласа

Ответ был найден в XX веке.
Попросту говоря, грядущий ход эволюции, в том числе социальной, непредсказуем.

Это происходит потому, что миром правит случайность.
Нет никакой возможности предсказать момент распада радиоактивного ядра.
И невозможно предсказать как у человечества пойдёт развитие научной мысли.
Так, например, если бы у человечества появилась вычислительная техника до Ньютона и Лейбница, то наиболее вероятно, мы бы не знали ни дифференциалов, ни интегралов - их бы заменили алгоритмы.

From:

cali4nickation

Рассмотрим самую пострадавшую отрасль народного хозяйства. Если кто вам скажет что каждый программист теперь не может (а значит должен в рыночной экономике минимизирующей издержки) совмещать в одном лице бэкэнд, фронтэнд, и девопс роли то плюньте ему в лицо. Года три назад такое требовало столько лет опыта что особо не встречалось. А теперь любая кухарка казалось бы.

И знаете что? В типичной кровавоэнтерпрайзной корпорации нету таких позиций. Им проще весь фронтэнд вывезти в аутсорс в ЛатАм а весь ДевОпс в Индию. И полдня съэкономленные на кодогенерации вы будете ждать когда Индусы проснуться. А так да, знания по крупицам собираемые раньше ничего не стоят и первый попавшийся LLM вам за двадцать секунд нагенерит кода который вы до первой империалистической весь демь писали бы. Ничего сравнимого на памяти ныне живущих не было.

Flat | Top-Level Comments Only

Profile

alex0rozoff

April 2026

S	M	T	W	T	F	S
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Page Summary

Active Entries

Style Credit

Style: Neutral Good for Practicality by timeasmymeasure

Expand Cut Tags

No cut tags

Page generated Apr. 29th, 2026 03:51 am

Как развеиваются иллюзии работоспособности искусственного интеллекта LLM

Как развеиваются иллюзии работоспособности искусственного интеллекта LLM

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Profile

April 2026

Most Popular Tags

Page Summary

Active Entries

Style Credit

Expand Cut Tags