Viral BridgeBench-postaus väittää, että Claude Opus 4.6 heikennettiin, kriitikot pitävät sitä huonona tieteenä

Kirjoittanut ja toimittanut

Julkaistu:13 huhtikuu 2026, 13.13 UTC

Viraalissa X-postauksessa väitettiin, että Claude Opus 4.6:n harhat nousivat 98 prosenttia.
Kriitikot huomasivat, että vertailussa käytettiin eri testikokoja, ei samoja vertailuarvoja.
Saman tehtävän analyysi osoittaa vain vähäistä muutosta, joka on tavanomaista tekoälyn vaihtelua.

BridgeMind AI väitti, että Anthropicin Claude Opus 4.6:n suorituskykyä oli salaa heikennetty hallusinaatiotestin uusinnan jälkeen. Viruksesta levinnyt julkaisu on sittemmin saanut voimakasta kritiikkiä puutteellisista menetelmistä.

Väite herätti laajaa keskustelua siitä, laskevatko tekoäly-yhtiöt huomaamattomasti maksullisten mallien tasoa kulujen säästämiseksi.

BridgeMind väittää hallusinaatioiden kasvaneen 98 %

BridgeMind, joka on BridgeBench-koodausvertailun takana, kertoi Claude Opus 4.6:n pudonneen toiselta sijalta kymmenenneksi hallusinaatioiden top-listalla. Tarkkuus putosi heidän mukaansa 83,3 prosentista 68,3 prosenttiin.

“CLAUDE OPUS 4.6 ON HEIKENNETTY. BridgeBench osoitti tämän juuri. Viime viikolla Claude Opus 4.6 oli Hallucination-testissä sijalla #2 83,3 %:n tarkkuudella. Tänään Claude Opus 4.6 testattiin uudestaan, ja se putosi sijalle #10 vain 68,3 %:n tarkkuudella,” he kirjoittivat.

Julkaisu esitti tämän todisteena “heikentyneestä päättelystä.” Tarkempi tarkastelu taustalla oleviin tietoihin kuitenkin kertoo toisen tarinan.

Kriitikot pitävät vertailua perusteellisesti virheellisenä

Tietojenkäsittelytieteilijä Paul Calcraftin mukaan väite on “poikkeuksellisen huonoa tiedettä,” ja hän nosti esiin vakavan ongelman metodologiassa.

“Poikkeuksellisen huonoa tiedettä. Testasitte Opusta tänään 30 tehtävällä, aiempi tulos perustui vain *6* tehtävään. Tulos 6 yhteisellä tehtävällä: 85,4 % tänään vs. 87,6 % aiemmin. Erotus tulee lähinnä *yhdestä* tekaistusta vastauksesta ilman toistoja – tilastollista vaihtelua,” kommentoi Calcraft.

Alkuperäinen korkea tulos oli vain kuuden tehtävän perusteella. Uusinnassa testitehtäviä oli 30.

Kuuden päällekkäisen tehtävän kohdalla suorituskyky oli lähes sama, ja laski vain 87,6 prosentista 85,4 prosenttiin.

Despicable clout chasing. They tested Opus today on 30 tasks, previous Opus 4.6 score was on just *6* tasks. DIFFERENT BENCHMARK

6 tasks in common results: 85.4% score today vs. 87.6% prev. Swing is mostly from a *single* fabrication without repeats – easily statistical noise https://t.co/wmFfAfNmEW pic.twitter.com/opUxoVevpP
— Paul Calcraft (@paul_cal) April 12, 2026

Pieni heilahdus johtui lähinnä yhdestä ylimääräisestä tekaistusta vastauksesta yhdessä tehtävässä. Tulosten ollessa ilman toistoja, tällainen vaihtelu kuuluu normaaliin tilastolliseen hajontaan AI-malleilla.

Laajat kielimallit eivät ole deterministisia, ja yksi huono vastaus pienessä otoksessa voi vaikuttaa tuloksiin huomattavasti.

Laajempi tyytymättömyys ruokkii väitteitä

Julkaisu kuitenkin aiheutti tunteita. Claude Opus 4.6 on helmikuun 2026 lanseerauksensa jälkeen kohdannut jatkuvaa kritiikkiä oletetusta laadun heikkenemisestä.

Kehittäjät raportoivat lyhyemmistä vastauksista, heikentyneestä ohjeiden noudattamisesta ja matalammasta päättelytasosta ruuhka-aikoina.

Osa tästä johtuu tietoisista muutoksista tuotteeseen. Anthropic otti käyttöön adaptiivisen päättelybudjetin hallinnan, jonka avulla malli säätää itsenäisesti resurssijakaumiaan. Oletuksena panostus-tasoksi asetettiin myöhemmin keskitaso, jolloin tehokkuus painottui syvyyden sijaan.

New on the API: we're giving developers better control over model effort and more flexibility for long-running agents.

Adaptive thinking lets Claude calibrate its reasoning depth to each task, and context compaction keeps long-running tasks from hitting limits.
— Claude (@claudeai) February 5, 2026

Itsenäisessä analyysissa yli 6 800 Claude Code -sessiossa havaittiin, että päättelyn syvyys laski noin 67 prosenttia helmikuun loppuun mennessä.

Ennen koodin muokkaamista mallin tiedostojen lukusuhde tippui arvosta 6,6 arvoon 2,0. Tämä viittaa siihen, että se yritti korjata koodia, jota se oli tuskin tarkistanut.

Mitä tämä tarkoittaa tekoälyn käyttäjille

Ilmiö kuvastaa kasvavaa jännitettä tekoälyalan sisällä. Yritykset optimoivat malleja kustannusten ja skaalautuvuuden vuoksi käyttöönoton jälkeen, kun taas raskaat käyttäjät odottavat tasaista huipputason suorituskykyä. Näiden tarpeiden välinen kuilu syö luottamusta.

Saatavilla olevien tietojen perusteella BridgeBenchin data ei todista tahallista heikennystä. Vertailutestissä oli vertailtavina eri asiat, ja päällekkäiset tulokset olivat lähes samoja.

Siitä huolimatta taustalla oleva turhautuminen ei ole täysin perusteetonta. Adaptiiviset laskentatehon säädöt ja palvelun optimoinnit ovat muuttaneet Claude Opus 4.6:n toimintaa käytännössä. Kehittäjille, jotka luottavat tasalaatuiseen tuotokseen, nämä muutokset ovat merkityksellisiä.

Anthropic ei ole julkaissut julkista lausuntoa erityisesti BridgeBench-väitteistä tämän tekstin kirjoitushetkellä (13. huhtikuuta).