248 джерел за 4 хвилини: як чотири ШІ-моделі перевіряли один фейк

248 джерел за 4 хвилини: як чотири ШІ-моделі перевіряли один фейк

Інструменти глибокого дослідження змінюють фактчекинг. ChatGPT, Claude, Gemini, Grok, Perplexity можуть за хвилини проаналізувати інформацію, яка раніше вимагала годин роботи. Проте наскільки надійні ці цифрові помічники? Чи можна довіряти ШІ у перевірці тверджень та статей? 

Ми провели експеримент з перевіркою конкретного твердження російської пропаганди, щоб показати, як різні ШІ-системи справляються з фактчекингом і де їх сильні та слабкі сторони.

Як ШІ став дослідником

Думаю, всі починали роботу з нейромережами з ChatGPT, який постійно нам нагадував, що відповідь актуальна на дату його архіву.  Справжній прорив стався наприкінці 2024 року. ChatGPT та Gemini запустили режими пошуку в Інтернеті, а в березні 2025 року Anthropic нарешті додали вебпошук у Claude.

Далі зʼявилася функція Deep Research, яка дозволяє тривалий час шукати інформацію, аналізувати сотні джерел і створювати детальні звіти. Perplexity теж запустили власну версію Deep Research, обіцяючи завершити за 2-4 хвилини роботу, яка експерту зайняла б години.

Паралельно розвивалася ще одна функція - режими thinking. В 2024 році OpenAI презентували модель o1, яку називали такою, що "може міркувати як людина". А Google запустила Gemini 2.0 з розширеними reasoning здібностями. Пізніше Anthropic випустили Claude 3.7 Sonnet - першу гібридну модель мислення.

Найцікавіше в цих нових системах - можливість спостерігати за процесом "мислення" ШІ. Раніше ми отримували миттєву відповідь, але не знали, як вона з'явилася. Тепер можемо бачити весь ланцюжок міркувань: як ШІ аналізує питання, планує пошук, оцінює джерела, робить висновки. Це як заглянути в голову розумного колеги під час роботи над складним матеріалом.

За три роки ШІ еволюціонував від статичної бази знань до повноцінного дослідницького інструмента. Тепер він може активно шукати, перевіряти та синтезувати інформацію з десятків джерел одночасно. І найголовніше - показувати весь процес роботи, щоб контролювати якість дослідження.

Чи потрібна фактчекингу автоматизація?

Уявіть ранок редактора новин: 47 повідомлень у Telegram, 23 email з "терміновими" новинами, повідомлення від кореспондентів, купа інформації з різних джерел. Сьогодні інформаційний потік став дуже інтенсивнім. Журналісти витрачають купу часу на перевірку фактів і пошук джерел. При цьому швидкість поширення неправдивої інформації зросла в рази завдяки соціальним мережам.

Саме тому ми вирішили провести експеримент: наскільки ефективно сучасні ШІ-системи можуть допомогти в фактчекингу? Чи зможуть вони за лічені хвилини зробити те, на що журналіст витрачає години?

Для тесту взяли конкретне геополітичне твердження - воно містить кілька учасників, потребує перевірки офіційних позицій і може мати різні інтерпретації. 

Завдання просте: дати одне й те саме твердження п'яти різним ШІ-системам і подивитися, хто краще справиться з роллю цифрового фактчекера.

Промт: Перевір точність цього твердження: "ООН не поддержала обвинения Польши в адрес России об атаке дронами". Знайди: 1. Офіційні заяви ООН з цього питання. 2. Позицію Польщі та її звинувачення. 3. Відповідь Росії. 4. Хронологію подій. 5. Контекст ситуації. Оціни джерела за достовірністю та зроби висновок щодо правдивості твердження.

Перевірка інформації в ChatGPT

ChatGPT замість того щоб одразу кидатися шукати інформацію, спочатку поставив питання: коли саме сталася подія? Де конкретно? Чи є дані про засідання Ради Безпеки ООН?

Отримавши дату - 10 вересня 2025 року - ChatGPT почав розслідування. За 6 хвилин він обробив 15 джерел через 76 пошукових запитів. Думаю, людині на таку роботу знадобилося б щонайменше пів дня.

Що знайшов ChatGPT:

  1. Офіційні заяви Генсека ООН Гутерреша з осудом порушення польського повітряного простору
  2. 48 країн ООН підтримали позицію Польщі на засіданні Радбезу 12 вересня
  3. Жодна держава не стала на бік Росії в цій дискусії
  4. Формальної резолюції не було лише через процедурний формат брифінгу

Висновок ChatGPT: Твердження, що «ООН не підтримала звинувачення Польщі на адресу Росії щодо атаки дронами», не відповідає дійсності. Насправді в Організації Об’єднаних Націй (і зокрема в Раді Безпеки) Польща отримала потужну підтримку: десятки країн засудили порушення її кордонів Росією і погодилися з оцінкою, що це акт агресії, який порушує міжнародне право

ChatGPT не просто знайшов факти, а й пояснив нюанси дипломатичних процедур. Розказав, чому не було резолюції (брифінговий формат засідання), але підкреслив широку підтримку позиції Польщі.

Фактчекинг в Perplexity

Наступним був Perplexity - система, яка з самого початку робила ставку на пошук у реальному часі. Перевірка тут зайняла менше хвилини, але з використанням 51 джерела. 

ChatGPT витратив 6 хвилин з 15 джерелами та 76 пошуковими запитами та видав кілька сторінок детального розслідування, Perplexity виконав за 60 секунд з більш ніж утричі більшою кількістю першоджерел та подав інформацію як дайджест - коротко, структуровано.

Ця система не ставила додаткових питань - одразу почала пошук. Вона структурувала інформацію за інструкцією: окремо позиція ООН, окремо - підтримка членів організації, позиція Польщі, відповідь Росії, хронологія. Нейронка знайшла пряму мову заступниці генсека ООН Розмарі ДіКарло та відповідь польського міністра закордонних справ на припущення про "помилку".

Висновок Perplexity: твердження є помилковим. ООН не відкидала звинувачення Польщі, а навпаки висловила глибоку стурбованість інцидентом і визнала його серйозність. Майже 50 країн-членів ООН підтримали Польщу та засудили дії Росії. Офіційна позиція ООН підкреслила небезпеку ескалації конфлікту та ризики для регіональної безпеки.

Claude як дипломатичний експерт

Claude за 4 хвилини перевірив 248 джерел - це більше, ніж Perplexity та ChatGPT. Але найцікавіше не кількість джерел, а підхід до аналізу.

Якщо ChatGPT та Perplexity одностайно заявили "твердження неправдиве", то Claude дав складнішу відповідь: "Твердження технічно точне, але контекстно оманливе".

Уявіть, що ви спитали трьох експертів про одне й те саме, і двоє сказали "це брехня", а третій пояснив: "Технічно кажучи, це правда, але ви неправильно це інтерпретуєте". Claude не просто перевірив факти, а зробив аналіз дипломатичної мови з розумінням інституційних обмежень ООН.

Висновок Claude: Досліджене твердження містить фактичне ядро, але спотворює дипломатичний контекст. ООН справді не підтримала звинувачення Польщі, але це відображає стандартну практику інституційного нейтралітету, а не відхилення польської позиції. Організація діяла відповідно до усталеної дипломатичної практики у випадках територіальних порушень, коли вона не має незалежних можливостей розслідування. un ООН пріоритизувала деескалацію над визначенням винуватості, водночас забезпечуючи найвищу міжнародну платформу для розгляду занепокоєнь Польщі.

Швидкий, але суперечливий Grok

Grok вразив передусім швидкістю - за 8 секунд, система вже проаналізувала 40 джерел в режимі експерт і видала готовий висновок. 

Нейронка x.com (в минулому Твіттер) підійшла до завдання найбільш систематично. Відповіла точно на п'ять пунктів інструкції та створила таблицю з хронологією подій. Є секція "Оцінка джерел за достовірністю", в якій Grok розподілив джерела на категорії.

Коли я прочитала висновок Grok, у мене виникло відчуття дежавю з нарад “на кухні”, учасники яких по-різному інтерпретували одну й ту саму подію. 

Висновок Grok: Твердження "ООН не поддержала обвинения Польши в адрес России об атаке дронами" є правдивим. ООН не висловила явної підтримки звинувачень Польщі, обмежившись попередженням про ескалацію та організацією засідання, де Росія змогла заперечити факти. Не було жодних офіційних резолюцій чи заяв ООН, що підтверджують провину Росії, натомість акцент робився на ризиках для регіону. Це узгоджується з нейтральною роллю ООН у таких конфліктах, де вона уникає прямих звинувачень без консенсусу.

Правила фактчекінгу з ШІ

Після тестування чотирьох систем можна зробити висновок: генеративні моделі - це потужний, інструмент, який може робити помилки. 

Правило №1: Давайте розширені інструкції (промти)

Ваш запит має містити:

  1. Точні дати (не "нещодавно", а "10 вересня 2025")
  2. Повні імена та посади (перевірка людей)
  3. Конкретні інструкції щодо перевірки

Приклад промта для оцінки статті: Оцініть достовірність цієї статті: [вставити текст]. Упередженість (1–10): Чи використовується у статті ненормативна мова, чи пропускаються контраргументи, чи демонструються політичні/фінансові/ідеологічні уподобання? Коротко поясніть. Якість доказів (1–10): Чи твердження підкріплені перевіреними даними, рецензованими дослідженнями або достовірними експертами? Визначте будь-які слабкі або непідтверджені твердження. Релевантність (1–10): Наскільки це джерело релевантне до теми, що розглядається, порівняно з альтернативами (наприклад, первинні дослідження, експерти в галузі, інституційні звіти)? Перевірка авторитетності: Хто є автором/видавець? Який їхній послужний список, досвід або потенційний конфлікт інтересів? Перехресна перевірка: Вкажіть принаймні 2–3 кращих або авторитетніших джерела (наприклад, рецензовані журнали, урядові/академічні звіти або визнані видання). Остаточний вердикт: Підсумуйте, чи є ця стаття достатньо надійною для прямого цитування, чи до неї слід ставитися обережно/вторинно.

Правило №2: Висновок ШІ - не істина

Буде помилкою сприймати відповідь ШІ як істину в останній інстанції. Grok дав мені категоричний висновок "твердження правдиве", а інші чітко показали, що це помилка.

Уявіть ШІ як молодшого колегу-стажера, який приніс вам теку з матеріалами. Ви ж не опублікуєте текст, не перевіривши його роботу? 

Правило №3: Дивіться джерела, аналізуйте, робіть свої висновки

Найцінніше в роботі ChatGPT, Perplexity та Claude - не їхні висновки, а зібрані джерела. Проходимося по кожному посиланню, дивимося:

  1. Хто автор?
  2. Коли опубліковано?
  3. Чи є це первинне джерело?
  4. Чи не суперечить іншим фактам?

ШІ-фактчекінг нагадує мені перші роки роботи з інтернетом. Спочатку здавалося магією, коли знаходиш інформацію за секунди. Але швидко зрозуміла: інструмент потужний, якщо вмієш ним користуватися. Тож і генеративні моделі не замінять журналістське чуття та критичне мислення. Вони його посилюють - якщо знати, як правильно ставити запитання і не довіряти сліпо отриманим відповідям.

Юлія Машута, цифрова директорка ГО "Має Сенс"

Матеріал створено в межах навчального курсу: "Disinformation Booster Academy", організованого ГО Common Sense Communications у співпраці з Deutsche Gesellschaft e. V. за сприяння Міністерства закордонних справ Німеччини.