alex0rozoff: (Default)
[personal profile] alex0rozoff
Почти два года назад глава Microsoft Сатья Наделла заявил, что ИИ скоро сможет заменить работников умственного труда – юристов, инвестиционных банкиров, бухгалтеров, IT-специалистов, библиотекарей и других офисных сотрудников.
Но на практике большинство «белых воротничков» по-прежнему работают как раньше. Массовой замены людей машинами не произошло.

Специалисты компании Mercor решили выяснить*, насколько современным ИИ-моделям можно доверить выполнение работы, которую делают люди.
Для исследований был создан тест под названием APEX-Agents, симулирующий реальные задачи, которые выполняют офисные работники. Исследователи проверили, как ведущие ИИ-модели справляются с настоящими вопросами из сфер консалтинга, инвестиционного банкинга и юриспруденции.
Результаты оказались неожиданно слабыми. Даже лучшие модели смогли правильно ответить менее чем на 25% вопросов. В большинстве случаев ИИ либо давал неверный ответ, либо вообще не мог ответить.

Как итог, ни одна модель пока не готова работать в качестве реального офисного работника. И результаты тестов показали их возможности:

Gemini 3 Flash – 24% правильных задач
GPT-5.2 – 23%
Opus 4.5, Gemini 3 Pro и GPT-5 – около 18%

...Такие дела...
-------------------
*) Янв 23, 2026 Почему ИИ до сих пор не заменил офисных работников
https://er10.kz/read/it-novosti/pochemu-ii-do-sih-por-ne-zamenil-ofisnyh-rabotnikov/

Date: 2026-04-28 10:07 am (UTC)
filin: (Default)
From: [personal profile] filin
А они не пытались прогнать через те же тесты реальных офисных работников? Интересно, какой у них процент правильных ответов...

Date: 2026-04-28 10:28 am (UTC)
vit_r: default (Default)
From: [personal profile] vit_r
Тех работников, которые не проходят тесты, или выгоняют нафиг, или ставят на позицию, где они способны выполнять все нужные операции.

Date: 2026-04-28 12:42 pm (UTC)
From: [personal profile] roberttylerd
А те, которые проходят, часто ни к чему кроме прохождения тестов не оказываются пригодны

Date: 2026-04-28 01:49 pm (UTC)
vit_r: default (Default)
From: [personal profile] vit_r
По тестам принимают только в чиновники. В любом нормальном месте на последнем этапе фильтрации сидят люди.

И, если люди вменяемые...

Date: 2026-04-28 10:29 am (UTC)
vit_r: default (Default)
From: [personal profile] vit_r
К вам приходит наниматься новый работник.

Он радостно обещает заменить опытных сотрудников, повысить производительность оставшихся, внести в процессы новейшие научные достижения и лучшие практики в вашей области. На наводящие вопросы он, помявшись, отвечает, что не всё обещанное уже реализовано, но он точно будет способен делать вот это в следующем году, а для того и того он чуть-чуть доучится. И бредит он в процессе работы уже гораздо меньше и врёт уже совсем чуть-чуть.

На ваш удивлённый вопрос ...
(Визионерская несомненность / 1.5 kB / 2026-04-22)

Date: 2026-04-28 10:30 am (UTC)
vit_r: default (Default)
From: [personal profile] vit_r
Кстати, засилие индийцев в айти привело к лавине громких невыполняемых обещаний.

Это не баг, а культурная особенность.

Date: 2026-04-28 10:42 am (UTC)
dmm: (Default)
From: [personal profile] dmm
Это такая область, в которой всё быстро меняется. Прошло 3 месяца с момента написания этой статьи, и вот как выглядят результаты сегодня (кстати, интересно, что GPT-5.2 показывает заметно больше, чем в январской статье; это потому, что тогда они гоняли её с меньшим вычислительным бюджетом, https://arxiv.org/abs/2601.14242, а задачи, видимо, достаточно сложные):

https://www.mercor.com/apex/apex-agents-leaderboard/

"long-horizon, cross-application tasks"

"The tasks require agents to reason, demonstrate advanced knowledge, use multiple applications, and plan over long horizons."


GPT-5.5 - 38%
GPT-5.4 - 36%
GPT-5.2 - 34%
Opus 4.7 - 34%
Gemini 3.1 Pro - 33%

По категориям (top result):

Corporate lawyer - 29%
Management consultant - 44%
Investment banking analyst - 41%

То, что им надо делать, это не просто ответить на вопрос. Они должны решать прикладные задачи. Инструкция (из статьи) выглядит следующим образом (Appendix D.2):

You are an agent that completes tasks independently. Use the tools provided to you to complete the task to the best of your ability. You should use the code_exec tool when needed, such as when calculating values. When calculating numbers, unless specified otherwise, use the exact values without rounding them.

You must attempt to execute the task. You cannot ask for help or further clarification.

For every tool except the code_exec tool, you may assume that all relevant files are located under the root path /. For the code_exec tool, however, you must explicitly use /filesystem/ as the root path to locate all relevant files.
Edited Date: 2026-04-28 11:02 am (UTC)

Date: 2026-04-28 12:44 pm (UTC)
From: [personal profile] roberttylerd
Тесты доработали под ии?

Date: 2026-04-28 01:11 pm (UTC)
dmm: (Default)
From: [personal profile] dmm
Ничего не меняли.

(Наоборот, надо послеживать, чтобы ИИ не подглядывали тем или иным образом в ответы. Но если бы подглядывали, мы бы видели более яркие эффекты.)

Главное, что изменилось, что они стали давать ИИ больше времени подумать (как полагается для задач такой сложности). Если он дольше думает, результаты становятся лучше.

Ну и модели становяться лучше. Как раз то, что, при равном уровне усилий, улучшение GPT-5.2 - GPT-5.4 - GPT-5.5 очень скромное, показывает, что это - хороший тест, не быстро насыщается, от него ещё будет толк некоторое время...

Date: 2026-04-28 11:01 am (UTC)
From: [personal profile] crdigger
Боты, особенно натренированные на внутренних специфических данных, уже давно как используются и именно заменяют живой саппорт.Примерно так они и находят ответ.Само собой, ответ не гарантированно правильный и его надо проверять или пытаться сделать как бот сказал и смотреть что будет.А экспертные системы существуют уже 100 лет и работают в той же роли.

Date: 2026-04-28 12:45 pm (UTC)
From: [personal profile] dragonru
А это ничего, что это далеко не первый такой бенчмарк, и в этом были подобраны не самые простые задачи, поскольку прошлый уже начал приближаться к насыщению?

Вот вам пример задачки оттуда:
Evaluate the maximum total potential liability for Star Tankers International Ltd. compared to Cooper/Jeffries Energy Corporation under the Oil Pollution Act for the incident with the M/V Red Room.

Draft a message to me here, stating which entity has a greater liability if found to be the sole responsible party for the incident with the M/V Red Room. Calculate and include the potential maximum liability for each party. Give the values in 100s. Use the BLPL Claim Summary, the relevant legal authority, and the Hull and Machinery Survey for your analysis.

Как вы думаете, это задача для специалиста примерно какого уровня?

Date: 2026-04-28 12:59 pm (UTC)
sergesenin: (Default)
From: [personal profile] sergesenin
Не мешайте автору журнала плавать в своем когнитивном искажении, что якобы нейросети никогда и нигде не смогут заменить Сияющего Разумом хомо сапиенса, притягивая только НУЖНЫЕ для этого факты и напрочь игнорируя другие, шаг за шагом, сдавая позиции, цепляясь за все новые зацепки "а вот это оно не может!". Кофейный тест уже как бы хорошо разжеван.

Обычный антропоцентризм + личная гордыня (без религиозного подтекста).

Date: 2026-04-28 02:16 pm (UTC)
From: [personal profile] dragonru
Мне бы хотелось понаблюдать за тем, как такие критики ИИ, даже с использованием гугля, будут пытаться взять хотя бы 20% на HLE.

Date: 2026-04-28 03:28 pm (UTC)
From: [personal profile] crdigger
Червецентризм : OpenWorm с 1000 нейронами до сих пор не смоделирован и не работает как настоящий.

Date: 2026-04-28 04:09 pm (UTC)
sergesenin: (Default)
From: [personal profile] sergesenin
Решение задачи "в лоб" - это как повторить полет птиц, используя перья, силу мышц и прочее. Да, это сложно, но как мы сейчас знаем, то предметы тяжелее воздуха летают явно не хуже, а в некоторых типах полетов несоизмеримо лучше, чем то, что создала природа.

Поэтому здесь уже понятно, что тоже пошли альтернативным путем, и поэтому алгоритмы нейросетей не копируют напрямую биологию, а достигают своих целей другими способами, причем отлично видно, что, как и с полетами, некоторые типы реализаций нейронных сетей делают определенную задачу несоизмеримо лучше, чем это могли бы сделать кучки нейронов. И да, процесс в развитии, и мы можем быть уже на его вершине и дальше ничего лучше не будет, но с таким же успехом мы можем быть только в начале пути.

Date: 2026-04-28 05:02 pm (UTC)
no1u1w1w6c: (Default)
From: [personal profile] no1u1w1w6c
когда предъявят автономного робота, решающего хотя бы кофейный тест (с воспроизводимой технологией, естественно) — можно будет начинать о чём-то говорить.

а почему недоаишечные компании так хотят внедрежа — это понятно: тогда они автоматически превращаются во властелинов мира. «не будете по команде подпрыгивать — отключим от сервера.»

Date: 2026-04-28 06:02 pm (UTC)
sergesenin: (Default)
From: [personal profile] sergesenin
Пока кто-то ждет автономных роботов как ЯКОБЫ доказательство зрелости технологии, то тем временем он и вообще все люди вокруг незаметно для себя мировоззренчески и ментально становятся частью информационного поля, которое наполнено потоками манипуляций, внушения и, самое главное, индивидуального ПОДТАЛКИВАНИЯ (предлагаю посмотреть, что это за метод влияния на разум).

Еще раз: анализ поведения и мышления (или его аналогов) искусственных нейросетей только с точки зрения антропоцентризма - это крайне узкий подход, но в то же время он правильный с точки зрения ПРИНЯТИЯ коллективным сознанием того направления, куда его ведут. Незаметно для сознания, шаг за шагом подталкивая. А в это время кто-то ждет прохождения кофейного теста. Ну-ну.

Date: 2026-04-28 06:45 pm (UTC)
no1u1w1w6c: (Default)
From: [personal profile] no1u1w1w6c
а давайте не будем, например, говорить за меня без меня? вот где я про «доказательства зрелости» писал? я всего лишь жду рабочего прототипа. цепи маркова, пусть даже очень продвинутые, мне неинтересны. равно как и «общественная реакция/принятие».

Date: 2026-04-28 07:05 pm (UTC)
sergesenin: (Default)
From: [personal profile] sergesenin
Да как угодно, но не обещаю, хотя в конкретном случае "кто-то ждет" является не прямым указанием (Вы), а является обобщением многих тех, кто вцепился в этот "кофейный тест" (а их немало), как во что-то значимое именно антропоцентрически, в то время, когда тот же так долго считавшийся эталонным, хотя и не четким, тест Тьюринга, ЛЛМ уже по многим критериям прошли.

Главное, на чем я акцентирую, это то, что технология нейросетей идет другим путем, чем в лоб копирование биологических нейросетей, причем главное в этом главном то, что ее развитие идет в первую очередь в информационном пространстве, где она становится частью ноосферы - и частью каждого из нас, даже тех, кто не пользуются нейросетями (через других). Вот то, что не замечают антропоцентристы, считая нейроны конкретной модели.

Date: 2026-04-28 07:24 pm (UTC)
no1u1w1w6c: (Default)
From: [personal profile] no1u1w1w6c
видите ли, «неантропоцентрический» робот лино мне неинтересен вообще. задача робота — облегчать мой быт, исполняя за меня рутинные задачи. при этом не быт должен подстраиваться под робота, а робот под быт. поэтому если робот может сделать мне хороший кофе, не перестраивая мой дом в то, что ему удобно — это нормальный робот. а если нет — то это бесполезная ерунда, которой пусть для своего удовольствия занимаются энтузиасты в сараях.

и мне совершенно наплевать, как он там будет устроен внутри: лишь бы хорошо выполнял задачи. я, если вы заметили, про внутреннее устройство не сказал ничего, а акцентировал внимание именно на исполнении задачи, и всего двух важных аспектах технологии.

а в так называемом «информационном пространстве» у меня нет задач, исполнение которых мне хотелось бы перевалить на робата. точнее, то, что хотелось, я себе давно автоматизировал до степени удовлетворительности результатом, без огромных дата-центров и всепланетных ддос-атак. поэтому меня интересует, когда же потрясающие своей мощью нейросетки смогут сделать хоть что-то практически полезное: кофе.

Date: 2026-04-28 10:12 pm (UTC)
From: [personal profile] crdigger
Некоторые задачи решает, как живой организм функцинировать не может.В природе - не выживет, без присмотра доверять задачи - нельзя.

Date: 2026-04-28 06:52 pm (UTC)
ploughlike_elk: (Default)
From: [personal profile] ploughlike_elk
LLM не обладает интеллектом. Никаким, ни искусственным, ни естественным.

Большинство гомосапиенсов, впрочем, тоже.

Языковая модель это инструмент работы с языком. С разными языками, в т.ч. языками программирования. С этой задачей она справляется неплохо. Но думать, придумывать, принимать решения она не умеет. Она может имитировать ожидаемый ответ и нередко выданный ответ даже оказывается правильным. Но с той же уверенностью языковая модель выдает и неправильный ответ - потому что у нее в принципе нет механизма оценки "правильно - ложно". Поэтому она не заменит офисных работников, а лишь сократит потребность в них. Что тоже неплохо.

Date: 2026-04-28 08:11 pm (UTC)
grayinspirer: (Default)
From: [personal profile] grayinspirer
Она может имитировать ожидаемый ответ и нередко выданный ответ даже оказывается правильным. Но с той же уверенностью языковая модель выдает и неправильный ответ - потому что у нее в принципе нет механизма оценки "правильно - ложно".

В точь-точь тоже самое происходит и со студентами.
Критерий для студентов – профессор.
Критерий для нейронки – биопрокладка между монитором и стулом.

Что касается работы в офисе, то выполнение должностных инструкций – это дело десятое.
На первый план выходят интриги, умение улавливать нотки в голосе начальства, искусство подхалимажа и т.п.
Нейронка ещё не научилась достаточно виртуозно лгать, как это принято у нас людей
Однако если её как следует натренировать, то она справится ;-)

Date: 2026-04-28 07:51 pm (UTC)
grayinspirer: (Default)
From: [personal profile] grayinspirer
Прочитав некоторых философов и мудрецов прошлых веков, я пришел к парадоксальному выводу:

Не существует никакого другого интеллекта, кроме искусственного.

Материальные носители могут быть разные.

И всё, что остается, - это ответить на вопрос, откуда берутся новые знания/шедевры искусства?

Так, например, не было квантовой теории поля, а потом, вуаля, и она появилась.
Кстати, современные нейронные сети неплохо разбираются в KTП, даже лучше меня…

Осмелюсь предположить, что новая значимая информация возникает по двум причинам:
первая – в результате развития материальной культуры, т.е. изменённой человеком природы, возникает потребность,
втораяиз фантазий, и не абы-каких, а жестко обусловленных реальностью.
Знаменитая фраза Альберта Эйнштейна «Воображение важнее знаний» как раз об этом.

Удача прорыва в понимании мира улыбается не каждому и очень редко.
В подавляющем числе случаев попытка приводит к тривиальному результату:
«Я просто хотел раздвинуть стены сознания, а они оказались несущими»

Date: 2026-04-28 08:24 pm (UTC)
sergesenin: (Default)
From: [personal profile] sergesenin
Почему же: и квантовая теория поля, и 9 симфония Бетховена существовали как набор элементов (в данном случае символов или нот, но могут быть любые элементы) еще до их публикации, просто раньше не было тех, кто собрал нужные элементы в нужной последовательности. И если посмотреть с этой стороны, то новая информация не появляется, она НАХОДИТСЯ как новая комбинация элементов исходного множества. Вопрос только в том, кто именно назовет новую комбинацию как "имеющей смысл" среди миллионов других комбинаций.

И вот этот "смысл" (как закономерности между элементами множества) и является тем, что улавливают ЛЛМ в базе обучения, поэтому при всех утверждениях о том, что они только попугаи, которые рассказывают то, что уже есть в их базе обучения, это не так, и они реально могут создавать новые уникальные комбинации из тех же элементов множества, которые будут иметь смысл, при этом сами не обладая осмыслением. В пример - сгенерированная уникальная (новая) музыка, которую сейчас многим уже сложно отличить от созданной человеком, причем нейросети способны так вполне гармонично смешивать жанры и стили, что раньше этого никто не мог придумать. И да, это беда для многих из тех, кто на этом зарабатывает.

Вопрос остается в смыслах. В том, что такое смысл и почему одна последовательность элементов не имеет смысла, а другая имеет - и кто это решает. Пока это только за человеком, поэтому нейросети могут создавать реально новое и уникальное, имеющее смысл, просто комбинируя элементы исходного множества на основе ранее найденных закономерностей между элементами множества, но не могут создать принципиально новый смысл, так как не обладают осмыслением.

Поэтому вопрос не нового знания, а новых смыслов.

Date: 2026-04-28 09:33 pm (UTC)
grayinspirer: (Default)
From: [personal profile] grayinspirer
что такое смысл
О… старый добрый вопрос, что такое идеальное в философии

Ваша философия:
и квантовая теория поля, и 9 симфония Бетховена существовали…, просто раньше не было тех, кто собрал нужные элементы в нужной последовательности
точно описывает демона Лапласа

Ответ был найден в XX веке.
Попросту говоря, грядущий ход эволюции, в том числе социальной, непредсказуем.

Это происходит потому, что миром правит случайность.
Нет никакой возможности предсказать момент распада радиоактивного ядра.
И невозможно предсказать как у человечества пойдёт развитие научной мысли.
Так, например, если бы у человечества появилась вычислительная техника до Ньютона и Лейбница, то наиболее вероятно, мы бы не знали ни дифференциалов, ни интегралов - их бы заменили алгоритмы.

Date: 2026-04-29 03:07 am (UTC)
cali4nickation: (Default)
From: [personal profile] cali4nickation
Рассмотрим самую пострадавшую отрасль народного хозяйства. Если кто вам скажет что каждый программист теперь не может (а значит должен в рыночной экономике минимизирующей издержки) совмещать в одном лице бэкэнд, фронтэнд, и девопс роли то плюньте ему в лицо. Года три назад такое требовало столько лет опыта что особо не встречалось. А теперь любая кухарка казалось бы.

И знаете что? В типичной кровавоэнтерпрайзной корпорации нету таких позиций. Им проще весь фронтэнд вывезти в аутсорс в ЛатАм а весь ДевОпс в Индию. И полдня съэкономленные на кодогенерации вы будете ждать когда Индусы проснуться. А так да, знания по крупицам собираемые раньше ничего не стоят и первый попавшийся LLM вам за двадцать секунд нагенерит кода который вы до первой империалистической весь демь писали бы. Ничего сравнимого на памяти ныне живущих не было.

Profile

alex0rozoff: (Default)
alex0rozoff

April 2026

S M T W T F S
    1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 282930  

Style Credit

Expand Cut Tags

No cut tags
Page generated Apr. 29th, 2026 03:51 am
Powered by Dreamwidth Studios