OpenZeppelin виявив забруднення даних у EVMbench OpenAI

Компанія OpenZeppelin, що спеціалізується на безпеці блокчейну, повідомила про виявлені методологічні помилки та забруднення даних у своєму аудиті нового штучного інтелектуального бенчмарку OpenAI для безпеки блокчейну, EVMbench.

Bенчмарк, запущений у партнерстві з інвестиційною криптофірмою Paradigm у середині лютого, має на меті оцінити, як добре різні моделі штучного інтелекту можуть виявляти, виправляти та експлуатувати вразливості смарт-контрактів. OpenZeppelin висловила підтримку ініціативі, однак вирішила піддати EVMbench такій же перевірці, яку застосовує до всіх протоколів, які вона забезпечує, включаючи відомі проекти децентралізованих фінансів, такі як Aave, Lido та Uniswap.

У процесі аудиту було виявлено дві основні проблеми: забруднення даних для навчання та проблеми з класифікацією кількох вразливостей високої тяжкості. Зокрема, OpenZeppelin зазначила, що виявила методологічні недоліки та неправомірні класифікації вразливостей, включаючи щонайменше чотири питання, охарактеризовані як високого ризику, які насправді не є експлуатованими.

Хоча EVMbench виявив, що найвищий бал отримав штучний інтелект Claude Open 4.6 від Anthropic, за ним йдуть OC-GPT-5.2 від OpenAI та Gemini 3 Pro від Google.

OpenZeppelin також вказала на те, що моделі, які отримали високі бали, могли бути знайомі з звітами про вразливості під час попереднього навчання, оскільки тестування EVMbench проводилося в умовах відключення Інтернету, що не дозволяло AI агентам шукати рішення.

Це означає, що агенти могли вже мати відповіді на проблеми в своїй пам'яті.

Нарешті, OpenZeppelin зазначила, що в наборі даних EVMbench були значні фактичні помилки, через що сумнівні вразливості були класифіковані як високоризикові.

Компанія підкреслила, що хоча штучний інтелект матиме значний вплив на покращення безпеки блокчейну, важливо коректно застосовувати цю технологію та тестувати її, щоб максимально використати її потенціал.