Почти два года назад глава Microsoft Сатья Наделла заявил, что ИИ скоро сможет заменить работников умственного труда – юристов, инвестиционных банкиров, бухгалтеров, IT-специалистов, библиотекарей и других офисных сотрудников.
Но на практике большинство «белых воротничков» по-прежнему работают как раньше. Массовой замены людей машинами не произошло.
Специалисты компании Mercor решили выяснить*, насколько современным ИИ-моделям можно доверить выполнение работы, которую делают люди.
Для исследований был создан тест под названием APEX-Agents, симулирующий реальные задачи, которые выполняют офисные работники. Исследователи проверили, как ведущие ИИ-модели справляются с настоящими вопросами из сфер консалтинга, инвестиционного банкинга и юриспруденции.
Результаты оказались неожиданно слабыми. Даже лучшие модели смогли правильно ответить менее чем на 25% вопросов. В большинстве случаев ИИ либо давал неверный ответ, либо вообще не мог ответить.
Как итог, ни одна модель пока не готова работать в качестве реального офисного работника. И результаты тестов показали их возможности:
Gemini 3 Flash – 24% правильных задач
GPT-5.2 – 23%
Opus 4.5, Gemini 3 Pro и GPT-5 – около 18%
...Такие дела...
-------------------
*) Янв 23, 2026 Почему ИИ до сих пор не заменил офисных работников
https://er10.kz/read/it-novosti/pochemu-ii-do-sih-por-ne-zamenil-ofisnyh-rabotnikov/
Но на практике большинство «белых воротничков» по-прежнему работают как раньше. Массовой замены людей машинами не произошло.
Специалисты компании Mercor решили выяснить*, насколько современным ИИ-моделям можно доверить выполнение работы, которую делают люди.
Для исследований был создан тест под названием APEX-Agents, симулирующий реальные задачи, которые выполняют офисные работники. Исследователи проверили, как ведущие ИИ-модели справляются с настоящими вопросами из сфер консалтинга, инвестиционного банкинга и юриспруденции.
Результаты оказались неожиданно слабыми. Даже лучшие модели смогли правильно ответить менее чем на 25% вопросов. В большинстве случаев ИИ либо давал неверный ответ, либо вообще не мог ответить.
Как итог, ни одна модель пока не готова работать в качестве реального офисного работника. И результаты тестов показали их возможности:
Gemini 3 Flash – 24% правильных задач
GPT-5.2 – 23%
Opus 4.5, Gemini 3 Pro и GPT-5 – около 18%
...Такие дела...
-------------------
*) Янв 23, 2026 Почему ИИ до сих пор не заменил офисных работников
https://er10.kz/read/it-novosti/pochemu-ii-do-sih-por-ne-zamenil-ofisnyh-rabotnikov/
no subject
Date: 2026-04-28 10:07 am (UTC)no subject
Date: 2026-04-28 10:14 am (UTC)Кстати, интересный вопрос:)))
no subject
Date: 2026-04-28 10:28 am (UTC)no subject
Date: 2026-04-28 12:42 pm (UTC)no subject
Date: 2026-04-28 01:49 pm (UTC)И, если люди вменяемые...
no subject
Date: 2026-04-28 10:29 am (UTC)no subject
Date: 2026-04-28 10:30 am (UTC)Это не баг, а культурная особенность.
no subject
Date: 2026-04-28 10:42 am (UTC)https://www.mercor.com/apex/apex-agents-leaderboard/
"long-horizon, cross-application tasks"
"The tasks require agents to reason, demonstrate advanced knowledge, use multiple applications, and plan over long horizons."
GPT-5.5 - 38%
GPT-5.4 - 36%
GPT-5.2 - 34%
Opus 4.7 - 34%
Gemini 3.1 Pro - 33%
По категориям (top result):
Corporate lawyer - 29%
Management consultant - 44%
Investment banking analyst - 41%
То, что им надо делать, это не просто ответить на вопрос. Они должны решать прикладные задачи. Инструкция (из статьи) выглядит следующим образом (Appendix D.2):
You are an agent that completes tasks independently. Use the tools provided to you to complete the task to the best of your ability. You should use the code_exec tool when needed, such as when calculating values. When calculating numbers, unless specified otherwise, use the exact values without rounding them.
You must attempt to execute the task. You cannot ask for help or further clarification.
For every tool except the code_exec tool, you may assume that all relevant files are located under the root path /. For the code_exec tool, however, you must explicitly use /filesystem/ as the root path to locate all relevant files.
no subject
Date: 2026-04-28 12:44 pm (UTC)no subject
Date: 2026-04-28 01:11 pm (UTC)(Наоборот, надо послеживать, чтобы ИИ не подглядывали тем или иным образом в ответы. Но если бы подглядывали, мы бы видели более яркие эффекты.)
Главное, что изменилось, что они стали давать ИИ больше времени подумать (как полагается для задач такой сложности). Если он дольше думает, результаты становятся лучше.
Ну и модели становяться лучше. Как раз то, что, при равном уровне усилий, улучшение GPT-5.2 - GPT-5.4 - GPT-5.5 очень скромное, показывает, что это - хороший тест, не быстро насыщается, от него ещё будет толк некоторое время...
no subject
Date: 2026-04-28 11:01 am (UTC)no subject
Date: 2026-04-28 12:45 pm (UTC)Вот вам пример задачки оттуда:
Evaluate the maximum total potential liability for Star Tankers International Ltd. compared to Cooper/Jeffries Energy Corporation under the Oil Pollution Act for the incident with the M/V Red Room.
Draft a message to me here, stating which entity has a greater liability if found to be the sole responsible party for the incident with the M/V Red Room. Calculate and include the potential maximum liability for each party. Give the values in 100s. Use the BLPL Claim Summary, the relevant legal authority, and the Hull and Machinery Survey for your analysis.
Как вы думаете, это задача для специалиста примерно какого уровня?
no subject
Date: 2026-04-28 12:59 pm (UTC)Обычный антропоцентризм + личная гордыня (без религиозного подтекста).
no subject
Date: 2026-04-28 02:16 pm (UTC)no subject
Date: 2026-04-28 03:28 pm (UTC)no subject
Date: 2026-04-28 04:09 pm (UTC)Поэтому здесь уже понятно, что тоже пошли альтернативным путем, и поэтому алгоритмы нейросетей не копируют напрямую биологию, а достигают своих целей другими способами, причем отлично видно, что, как и с полетами, некоторые типы реализаций нейронных сетей делают определенную задачу несоизмеримо лучше, чем это могли бы сделать кучки нейронов. И да, процесс в развитии, и мы можем быть уже на его вершине и дальше ничего лучше не будет, но с таким же успехом мы можем быть только в начале пути.
no subject
Date: 2026-04-28 05:02 pm (UTC)а почему недоаишечные компании так хотят внедрежа — это понятно: тогда они автоматически превращаются во властелинов мира. «не будете по команде подпрыгивать — отключим от сервера.»
no subject
Date: 2026-04-28 06:02 pm (UTC)Еще раз: анализ поведения и мышления (или его аналогов) искусственных нейросетей только с точки зрения антропоцентризма - это крайне узкий подход, но в то же время он правильный с точки зрения ПРИНЯТИЯ коллективным сознанием того направления, куда его ведут. Незаметно для сознания, шаг за шагом подталкивая. А в это время кто-то ждет прохождения кофейного теста. Ну-ну.
no subject
Date: 2026-04-28 06:45 pm (UTC)no subject
Date: 2026-04-28 07:05 pm (UTC)Главное, на чем я акцентирую, это то, что технология нейросетей идет другим путем, чем в лоб копирование биологических нейросетей, причем главное в этом главном то, что ее развитие идет в первую очередь в информационном пространстве, где она становится частью ноосферы - и частью каждого из нас, даже тех, кто не пользуются нейросетями (через других). Вот то, что не замечают антропоцентристы, считая нейроны конкретной модели.
no subject
Date: 2026-04-28 07:24 pm (UTC)и мне совершенно наплевать, как он там будет устроен внутри: лишь бы хорошо выполнял задачи. я, если вы заметили, про внутреннее устройство не сказал ничего, а акцентировал внимание именно на исполнении задачи, и всего двух важных аспектах технологии.
а в так называемом «информационном пространстве» у меня нет задач, исполнение которых мне хотелось бы перевалить на робата. точнее, то, что хотелось, я себе давно автоматизировал до степени удовлетворительности результатом, без огромных дата-центров и всепланетных ддос-атак. поэтому меня интересует, когда же потрясающие своей мощью нейросетки смогут сделать хоть что-то практически полезное: кофе.
no subject
Date: 2026-04-28 10:12 pm (UTC)no subject
Date: 2026-04-28 06:52 pm (UTC)Большинство гомосапиенсов, впрочем, тоже.
Языковая модель это инструмент работы с языком. С разными языками, в т.ч. языками программирования. С этой задачей она справляется неплохо. Но думать, придумывать, принимать решения она не умеет. Она может имитировать ожидаемый ответ и нередко выданный ответ даже оказывается правильным. Но с той же уверенностью языковая модель выдает и неправильный ответ - потому что у нее в принципе нет механизма оценки "правильно - ложно". Поэтому она не заменит офисных работников, а лишь сократит потребность в них. Что тоже неплохо.
no subject
Date: 2026-04-28 08:11 pm (UTC)В точь-точь тоже самое происходит и со студентами.
Критерий для студентов – профессор.
Критерий для нейронки – биопрокладка между монитором и стулом.
Что касается работы в офисе, то выполнение должностных инструкций – это дело десятое.
На первый план выходят интриги, умение улавливать нотки в голосе начальства, искусство подхалимажа и т.п.
Нейронка ещё не научилась достаточно виртуозно лгать, как это принято у нас людей
Однако если её как следует натренировать, то она справится ;-)
no subject
Date: 2026-04-28 07:51 pm (UTC)Не существует никакого другого интеллекта, кроме искусственного.
Материальные носители могут быть разные.
И всё, что остается, - это ответить на вопрос, откуда берутся новые знания/шедевры искусства?
Так, например, не было квантовой теории поля, а потом, вуаля, и она появилась.
Кстати, современные нейронные сети неплохо разбираются в KTП, даже лучше меня…
Осмелюсь предположить, что новая значимая информация возникает по двум причинам:
первая – в результате развития материальной культуры, т.е. изменённой человеком природы, возникает потребность,
вторая – из фантазий, и не абы-каких, а жестко обусловленных реальностью.
Знаменитая фраза Альберта Эйнштейна «Воображение важнее знаний» как раз об этом.
Удача прорыва в понимании мира улыбается не каждому и очень редко.
В подавляющем числе случаев попытка приводит к тривиальному результату:
«Я просто хотел раздвинуть стены сознания, а они оказались несущими»
no subject
Date: 2026-04-28 08:24 pm (UTC)И вот этот "смысл" (как закономерности между элементами множества) и является тем, что улавливают ЛЛМ в базе обучения, поэтому при всех утверждениях о том, что они только попугаи, которые рассказывают то, что уже есть в их базе обучения, это не так, и они реально могут создавать новые уникальные комбинации из тех же элементов множества, которые будут иметь смысл, при этом сами не обладая осмыслением. В пример - сгенерированная уникальная (новая) музыка, которую сейчас многим уже сложно отличить от созданной человеком, причем нейросети способны так вполне гармонично смешивать жанры и стили, что раньше этого никто не мог придумать. И да, это беда для многих из тех, кто на этом зарабатывает.
Вопрос остается в смыслах. В том, что такое смысл и почему одна последовательность элементов не имеет смысла, а другая имеет - и кто это решает. Пока это только за человеком, поэтому нейросети могут создавать реально новое и уникальное, имеющее смысл, просто комбинируя элементы исходного множества на основе ранее найденных закономерностей между элементами множества, но не могут создать принципиально новый смысл, так как не обладают осмыслением.
Поэтому вопрос не нового знания, а новых смыслов.
no subject
Date: 2026-04-28 09:33 pm (UTC)О… старый добрый вопрос, что такое идеальное в философии
Ваша философия:
и квантовая теория поля, и 9 симфония Бетховена существовали…, просто раньше не было тех, кто собрал нужные элементы в нужной последовательности
точно описывает демона Лапласа
Ответ был найден в XX веке.
Попросту говоря, грядущий ход эволюции, в том числе социальной, непредсказуем.
Это происходит потому, что миром правит случайность.
Нет никакой возможности предсказать момент распада радиоактивного ядра.
И невозможно предсказать как у человечества пойдёт развитие научной мысли.
Так, например, если бы у человечества появилась вычислительная техника до Ньютона и Лейбница, то наиболее вероятно, мы бы не знали ни дифференциалов, ни интегралов - их бы заменили алгоритмы.
no subject
Date: 2026-04-29 03:07 am (UTC)И знаете что? В типичной кровавоэнтерпрайзной корпорации нету таких позиций. Им проще весь фронтэнд вывезти в аутсорс в ЛатАм а весь ДевОпс в Индию. И полдня съэкономленные на кодогенерации вы будете ждать когда Индусы проснуться. А так да, знания по крупицам собираемые раньше ничего не стоят и первый попавшийся LLM вам за двадцать секунд нагенерит кода который вы до первой империалистической весь демь писали бы. Ничего сравнимого на памяти ныне живущих не было.