A Minerva Intézet kutatásainak célja a magyar felnőtt lakosság közérzetének, problématudatának, biztonságérzetének, valamint politikai attitűdjeinek és a mesterséges intelligenciával való interakció élményének feltérképezése, valamint a piac- és közvéleménykutatás területén a mesterséges intelligenciának, mint technológiának a megvalósíthatósági vizsgálata és demonstrációja.
Az adatfelvétel telefonon zajlik, mesterséges intelligencia alapú hangasszisztens segítségével. A megkeresések alapját véletlenszám-generálással előállított telefonszámok képzik, tehát nem használunk meglévő adatbázist vagy előre rögzített célcsoportokat. A válaszadás önkéntes, és kizárólag 18 év feletti személyek vehetnek részt a kutatásban.
Az adatfelvétel párhuzamosan 100 híváscsatornán zajlik, a sikeres hívások célszáma 1000.
A végleges eredmények a felnőtt magyar népesség kor, nem és lakóhely szerinti megoszlásához igazodva kerülnek súlyozásra. A súlyozást raking (iterative proportional fitting) eljárással végezzük, amely lehetővé teszi, hogy az eloszlások több szempont mentén egyszerre közelítsenek a hivatalos statisztikai adatokhoz (pl. KSH). A súlyozás részletes leírása a következő fejezetben található.
Az adatok az interjú után .sav formátumban kerülnek letárolásra, a feldolgozás SPSS Statistics statisztikai szoftverrel történik. A nyílt szöveges válaszokat gépi szövegelemzéssel klaszterezzük és kódoljuk.
A válaszadók minden esetben rövid adatvédelmi tájékoztatást kapnak a beszélgetés elején. Az adatkezelés teljes mértékben megfelel a hatályos jogszabályoknak, különös tekintettel a GDPR előírásaira. A részvétel önkéntes, a válaszok rögzítése pedig névtelen. A válaszok alapján a válaszadó személye visszakereshetetlen.
A beszélgetéseket minőségbiztosítási célból 30 napig tároljuk, ezt követően automatikusan törlésre kerülnek. Az interjúkat ember nem hallgatja vissza, a feldolgozás kizárólag gépi úton történik, teljes anonimitás mellett.
A kutatás során alkalmazott súlyozás célja, hogy a válaszadók mintája statisztikailag közelebb kerüljön a teljes népesség szerkezetéhez. A súlyozás révén korrigálhatók azok az esetleges torzítások, amelyek a mintavételből vagy a válaszadási hajlandóságból adódhatnak.
A súlyozást általában olyan demográfiai jellemzők mentén végezzük, amelyekről rendelkezésre áll hivatalos, megbízható statisztikai adat, például:
Ezeket az adatokat a KSH legfrissebb adatai alapján vesszük figyelembe:
A súlyokat úgy határozzuk meg, hogy a mintában szereplő arányok illeszkedjenek a teljes népesség megfelelő arányaihoz. Az eljárás során a raking (iterative proportional fitting) módszerét alkalmazzuk.
Példák:
férfi | 40,3 |
nő | 59,7 |
Község | 0,285 |
Megyei jogú város | 0,216 |
Város | 0,328 |
Főváros | 0,171 |
A súlyozás után a mintából számolt mutatók (pl. pártpreferenciák, vélemények) jobban reprezentálják a teljes népesség véleményét. A súlyozás azonban statisztikai bizonytalanságot is bevezethet, így a súlyozott adatokkal végzett elemzések esetén különösen fontos a konfidenciaintervallumok és a hibahatárok értelmezése.
A kutatás során nyílt kérdések is elhangzanak, amelyekben a válaszadókat arra kérjük, hogy saját szavaikkal fogalmazzák meg a véleményüket. A válaszokat szó szerinti leirat rögzíti és a kutatás lezárása után kerülnek gépi elemzésre.
A nyílt szöveges válaszok feldolgozásához szövegbányászati eljárásokat és nagy nyelvi modellt (LLM – large language model) alkalmazunk.
Ennek módszertana a következő: egy adott kérdés teljes válasz-korpuszát klaszterezési eljárásnak vetjük alá, ennek segítségével megállapítjuk a válaszok jelentésalapú klasztereit, azaz gyűjtő kategóriáit. Ezután az összes választ egyenként besoroljuk valamelyik kategóriába, s az adatbázisban a szabad szöveges választ ennek a kategóriának a kódjával cseréljük fel.