Megértő számítógépek

2010. augusztus 2., 22:56

A gépek és emberek közti kommunikáció a technológia rohamos fejlődésének ellenére sokszor még ma is nehézkes: az eszközök nagy része nem "érti", ha nem programokkal utasítjuk, hanem emberi nyelven szólunk hozzájuk. Az MTA SZTAKI meghívására Budapesten elődadást tartó brit professzor, Nick Campbell szerint azonban egy évtized múlva akár az utcai, irodai automaták is érzékelik majd például azt, hogy van-e kedvünk beszélgetni velük.

- Az emberi nyelv egyik legfontosabb információhordózójáról, a hanghordozásról sokáig nem vettünk tudomást. A beszédszintetizáló és felismerő technológiák fejlesztésekor azonban világossá vált, hogy e nélkül az információ nélkül csupán az ember számára idegen robothang állítható elő – összegezte több évtizedes kutatásának egyik kiindulópontját a dublini Trinity College professzora, aki korábban egyebek mellett az ATR-nél, egy Japánban működő telekommunikációs kutatóintézetnél dolgozott.

Nick Campbell munkatársaival a kilencvenes évek folyamán fejlesztett ki egy olyan, a hanghordozás felhasználásán alapuló, mesterséges beszédhangot előállító rendszert, amely lehetővé tette a beszéd elemekre történő felbontását, szegmentálását is. Ennek köszönhetően - megfelelő mennyiségű hangfelvételt feldolgozva - egy beszélő hangjából olyan új és élethű mondatokat tudtak előállítani, amelyek eredetileg nem is hangzottak el. Mint a professzor elmondta, a ma kereskedelmi forgalomban kapható beszédszintetizáló rendszerek továbbra is ezen az elven alapulnak.

- Egy 1999-ben elkezdett, öt évig tartó projekt keretében hétköznapi emberek társalgásait rögzítettük. Egy-egy személytől sok száz órányi anyagot vettünk fel. A beszélgetések feldolgozása révén pedig ma már többet tudunk az emberi kommunikációról – mondta Nick Campbell. Példaként említette, hogy az igen szót a japánok csak külföldiekkel és ismeretlenekkel folytatott beszélgetésekben használják, ismerőseikkel, illetve más honfitársaikkal társalogva azonban kevésbé egyértelműen fejezik ki magukat. A kutatók megfigyelték azt is, hogy az egymást nem ismerő japánok telefonbeszélgetéseiben akár hetvenszer is előfordult az igen szó használata, de minél többször hívták fel egymást, annál ritkábbá vált, végül pedig szinte teljesen eltűnt ez a szó a társalgásból.

- Ebből is jól látszik az emberi társalgás komplexitása. A beszédszintetizáló rendszerek működésének ugrásszerű javulását érhetjük el azzal, ha a beszélgetés további információrétegeit is bevonjuk a folyamatba. Ezek közül az egyik legfontosabb a testtartás – hangsúlyozta Nick Campbell. Mint elmondta, az utóbbi öt évben elsősorban azt vizsgálta, hogy milyen következtetéseket lehet levonni például a beszélgetők fej- és testmozgásából. A technológia ma már viszonylag könnyen beszerezhető, nagy látószögű lencsékkel felszerelt kamerákon alapul, amelyek egyszerre képesek feldolgozni egy kisebb csoport apró mozgásait is.

- Az egyetértés és a figyelem mértékét könnyen tudjuk mérni, de az is megjósolható az adatokból, hogy az éppen beszélő résztvevő után ki szólal meg legközelebb. A technológia segítségével hamarosan az egyetértés fajtáit is meg lehet majd különböztetni. Megmondhatjuk, hogy a beszélőpartner azért ért egyet, mert korábban is hasonló állásponton volt, vagy azért mert épp sikerült meggyőzni – mondta Nick Campbell. Hozzátette: arra törekszenek, hogy egyszerű adatokból, például a fej különböző tengelyekhez viszonyított mozgásaiból vonják le a következtetéseiket.

A professzor az mta.hu kérdésére úgy vélekedett, hogy a fejlettebb, hanghordozást és testtartást is figyelő kommunikációs rendszerek csak 10-15 év múlva juthatnak el a mindennapi felhasználókhoz, de hatalmas előrelépést jelentenek majd. – A számítógépeinknek azonban nem kell olyan okosnak lenniük, mint az embernek. Elég, ha olyan értelmesek, mint a kutyák, amelyek nem értik ugyan az emberi nyelvet, de mégis pontosan érzékelik a hangulatunkat, érzelmeinket – hangsúlyozta Nick Campbell.
Véleménye szerint a jövőben az is elképzelhető például, hogy az utcai, irodai automaták az emberek tekintetét, testtartását elemezve szólítják majd meg az egyes járókelőket és próbálják rábeszélni őket a vásárlásra. – Ha érzékelik, hogy a járókelő rájuk pillantott, akkor rögtön megszólítják, de a hanghordozását elemezve azt is érzékelik, hogy mikor kezdik el zavarni őt – fejtette ki a professzor. Utalt arra, hogy már ma is működnek olyan automatikus telefonközpontok, amelyek a megfelelő visszajelzésekkel el tudják érni, hogy az ügyfelek viszonylag sokáig azt gondolják, valódi emberrel beszélnek. – A mi rekordunk három perc, ezután azonban már a beszélő mondanivalójának részletes nyelvészeti elemzésére van szükség, hogy folytatni lehessen az ilyen társalgást – tette hozzá.

A professzor előadása Baranyi Péter, az MTA SZTAKI Kognitív Informatikai Kutatócsoport vezetőjének szervezésében valósult meg. A csoport időről időre világhírű kutatókat kér fel arra, hogy nyilvános előadások keretében számoljanak be a legújabb, úttörőnek számító kutatási eredményeikről.