BridgeBench: вірусний допис стверджує, що Claude Opus 4,6 «послабили», критики називають це псевдонавкою

Автор та редактор

Опубліковано:13 квітень 2026, 15:13 EET

Віральний пост у X заявив, що галюцинації Claude Opus 4.6 зросли на 98%.
Критики зазначили, що для порівняння використовували різні розміри тестів, а не однакові бенчмарки.
Аналіз того самого завдання показує мінімальні зміни, що відповідають стандартній варіативності ШІ.

BridgeMind AI стверджує, що продуктивність Claude Opus 4.6 від Anthropic була приховано знижена після повторного тестування на схильність до генерації хибних відповідей. Швидке поширення цієї заяви викликало гостру критику щодо методологічних вад аналізу.

Дискусія вийшла за межі вузької спільноти, піднявши питання: чи редукують AI-компанії функціональність платних моделей з метою скорочення витрат без відповідного інформування користувачів.

BridgeMind повідомляє про 98% зростання хибних відповідей

Команда BridgeMind, відповідальна за кодовий бенчмарк BridgeBench, заявила: Claude Opus 4.6 опустився з другого на десяте місце у своєму рейтингу схильності до генерації хибних тверджень. Показник точності, за їхніми словами, впав з 83,3% до 68,3%.

«CLAUDE OPUS 4.6 ЗАНИЖЕНО. Це довів BridgeBench. Минулого тижня Claude Opus 4.6 займав 2-ге місце у рейтингу Hallucination із точністю 83,3%. Сьогодні Claude Opus 4.6 перетестовано – і він лише десятий з точністю 68,3%,» йдеться у повідомленні.

Публікація була подана як беззаперечний доказ «зниження рівня міркування». Втім, детальний аналіз структури даних малює іншу картину.

Критики вказують на принципову методологічну неспівставність

На думку фахівця з комп’ютерних наук Пола Калкрафта, твердження BridgeMind є «яскравим прикладом хибної наукової практики» через критичний системний недолік у виборі методики.

«Це ганебна псевдонаука. Ви тестували Opus на 30 завданнях сьогодні, минула оцінка стосувалась лише *6* завдань. Результати для 6 спільних завдань: нинішній показник – 85,4% проти попередніх 87,6%. Вся різниця зумовлена лише *одним* випадком вигадки без повторень – тобто це цілком у рамках статистичної похибки,» зауважив Калкрафт.

Раніше високий результат було отримано за вибіркою всього з шести тестових завдань. Останнє повторне тестування охоплювало вже 30 завдань.

Порівняння лише спільних шести завдань показує майже незмінний рівень – 85,4% замість 87,6%.

Despicable clout chasing. They tested Opus today on 30 tasks, previous Opus 4.6 score was on just *6* tasks. DIFFERENT BENCHMARK

6 tasks in common results: 85.4% score today vs. 87.6% prev. Swing is mostly from a *single* fabrication without repeats – easily statistical noise https://t.co/wmFfAfNmEW pic.twitter.com/opUxoVevpP
— Paul Calcraft (@paul_cal) April 12, 2026

Коливання показника спричинене, по суті, лише одним додатковим випадком некоректного висновку в одному із завдань. Відсутність багаторазових проходжень робить ці зміни такими, що повністю вкладаються у межі типової статистичної мінливості для мовних моделей.

Моделі великих мов — недетерміновані системи; окремий невдалий вихід на малій вибірці істотно впливає на загальні підсумки.

Ширші фрустрації живлять цю оповідь

Втім, інформація від BridgeMind резонувала з аудиторією. З моменту запуску у лютому 2026 року Claude Opus 4.6 регулярно критикували за відчутне падіння якості.

Розробники констатують: інструмент почав генерувати лаконічніші відповіді, ігнорувати деякі інструкції, а глибина міркувань скоротилася, що особливо помітно у пікові періоди навантаження.

Частково це зумовлено цілеспрямованою зміною функціоналу. Anthropic запровадила адаптивні параметри мислення, що дозволяють системі самостійно визначати ресурс витрат на міркування. За замовчуванням рівень зусиль встановили як середній, оптимізуючи витрати за рахунок максимальної глибини.

New on the API: we're giving developers better control over model effort and more flexibility for long-running agents.

Adaptive thinking lets Claude calibrate its reasoning depth to each task, and context compaction keeps long-running tasks from hitting limits.
— Claude (@claudeai) February 5, 2026

Незалежний аналіз понад 6 800 сесій Claude Code продемонстрував скорочення глибини міркувань приблизно на 67% станом на кінець лютого.

Коефіцієнт співвідношення перегляди файлів до їх зміни впав із 6,6 до 2,0, що може свідчити — модель почала вносити виправлення у код, майже не аналізуючи його.

Які практичні наслідки для користувачів AI

Такий дисбаланс ілюструє специфічну напругу ринку. Корпорації прагнуть масового масштабування й зниження собівартості продукту, натомість користувачі з інтенсивними сценаріями очікують стабільно високої ефективності незалежно від завантаження. Конфлікт очікувань породжує дефіцит довіри.

Аналізуючи доступні емпіричні дані, можна констатувати: інформація BridgeBench не доводить навмисного зниження можливостей. Порівняння проводилося на різних обсягах тестових завдань, а результати спільної вибірки практично не відрізнялися.

Проте недовіра користувачів не позбавлена підґрунтя. Адаптивне управління витратами обчислювальних ресурсів та оптимізація продуктивності дещо змінили операційну поведінку Claude Opus 4.6. Для розробників, чия робота залежить від передбачуваної стабільності відповіді, ці коригування можуть мати суттєве значення.

Станом на 13 квітня Anthropic не оприлюднила офіційної заяви щодо висновків BridgeBench.

Відповідно до принципів проєкту Trust Project, ця авторська стаття представляє точку зору автора і не обов'язково відображає погляди BeInCrypto. BeInCrypto залишається прихильником прозорої звітності та дотримання найвищих стандартів журналістики. Читачам рекомендується перевіряти інформацію самостійно і консультуватися з професіоналами, перш ніж приймати рішення на основі цього контенту. Зверніть увагу, що наші Загальні положення та умови, Політика конфіденційності та Дисклеймер були оновлені.