A pozitív oldalon említhetjük, hogy a mesterséges intelligencia fejlődése révén egyre okosabbá válik, viszont sajnos a hátrányaként egyre több zavaros vagy félrevezető információt is terjeszt.
Ahogy valaki egyre mélyebb tudásra tesz szert, úgy nő a bölcsessége is, és hasonló elv érvényesül a mesterséges intelligencia világában is. Ez a megállapítás részben helytálló, hiszen a MI folyamatosan kísérli meg a kérdések megválaszolását, ám egyre gyakoribbá válik, hogy téves információkat közvetít. Ezek a hibák sokszor rejtve maradnak, ezért fontos, hogy kritikusan szemléljük az általa nyújtott válaszokat.
A mesterséges intelligencia rendkívül intelligens, de nem hibátlan. Érdekes módon, minél fejlettebb a rendszer, annál nehezebb számára elismerni a saját korlátait, így nagyobb eséllyel téveszti meg az embereket. Ezt a megállapítást foglalja össze egy spanyol kutatók által végzett elemzés.
A Valenciai Mesterséges Intelligencia Kutatóintézet kutatói egy izgalmas projekt keretében három jelentős MI-chatbot, nevezetesen az OpenAI GPT, a Meta LLaMA, valamint a BigScience akadémiai csoport által kifejlesztett nyílt forráskódú BLOOM modell válaszait elemezték. A kutatás célja az volt, hogy feltérképezzék a feltett kérdések nehézségi szintjét, a chatbotok által adott válaszok minőségét, és azt is, hogy az emberek mennyire képesek észlelni a téves vagy nem kielégítő válaszokat.
A különféle modellek vizsgálata során először a korai, nyers változatokat, majd a később, sokkal gazdagabb adathalmazon trenírozott, azaz lényegesen intelligensebbé vált verziókat elemezték. A kutatók több ezer kérdést vetettek fel, és rangsorolták azok nehézségét az emberek észlelése alapján. Az eredmények nem meglepőek: a nagyobb teljesítményű, finomhangolt LLM-ek (nagy nyelvi modellek) általában pontosabb válaszokat adtak, mivel ezeket az emberi visszajelzéseken alapuló megerősítő tanulási módszerekkel optimalizálták. Ugyanakkor azt is megfigyelték, hogy ahogy a kérdések bonyolultabbá váltak, úgy a hibás válaszok aránya is megnőtt. Ez azt jelenti, hogy a modellek hajlamosabbak voltak megpróbálni válaszolni egy kérdésre, még akkor is, ha nem voltak biztosak a helyes válaszban. A kísérlet során a GPT-4 például szinte minden kérdésre reagált, amely érdekes eltérés a korábbi tapasztalatokhoz képest. A hibás válaszok arányának növekedése a finomított modellek esetében gyakran meghaladta a 60%-ot, amit a Nature folyóirat összegzett.
Napjainkban a fejlett mesterséges intelligenciák szinte minden kérdésre képesek válaszolni, és látszólag mindenhez értenek – állítják a szakértők. Szerintük mindez oda vezetett, hogy az emberek túlértékelik a chatbotok valódi képességeit. Ezt a megállapítást egy kutatás eredményeiből szűrték le, amely során a résztvevőknek kellett értékelniük a chatbotok válaszait helyes, helytelen vagy elkerülő kategóriákba. Megdöbbentő, de az esetek 10-40%-ában a válaszok helytelen megítélése történt, ami rávilágít arra, hogy mennyire könnyen tévedhetünk a mesterséges intelligencia teljesítményének megítélésében.
José Hernández-Orallo, a kutatás vezetője, hangsúlyozza, hogy a fejlesztőknek fokozniuk kell a chatbotok tudásszintjét a könnyen megválaszolható kérdések terén. Ugyanakkor fontos, hogy ösztönözzék őket arra, hogy a bonyolultabb kérdésekre ne próbáljanak válaszolni. Az embereknek tudomásul kell venniük, hogy a mesterséges intelligencia bizonyos területeken hasznos lehet, míg másokban nem. Célszerű lenne egy határvonalat kijelölni, amely alapján a chatbotok képesek lennének jelezni, ha egy kérdés túllépi a tudásuk határait, például úgy, hogy egyszerűen azt mondják: "nem tudom".
A jelentős MI-vállalatok folyamatosan fáradoznak azon, hogy csökkentsék a chatbotjaik hallucinációs problémáit, ami különösen kritikus az orvosi alkalmazások esetében. Ezzel szemben az univerzális chatbotokat forgalmazó cégek számára ez a kérdés nem bír olyan nagy súllyal - mondja Vipula Rawte, a Columbiai Dél-Karolinai Egyetem informatikai szakértője.