2000/10.

Számítógép a bölcsésztudományokban

Bevezető

Napjainkra a humán tudományok művelői számára is hétköznapi eszközzé vált a számítógép. Robbanásszerűen megnőttek a kutatást segítő alkalmazásokat kívánó tudományterületek és ezzel együtt új kérdések és az ezekre adott, korábban nem ismert válaszok gazdagítják a bölcsészet jelentős területeit.

Ahogy a kezdetekben a nyelvészet kapott fontos indíttatást, a nyelv vizsgálata a továbbiakban is jelentős szerepet kap a különféle bölcsész területeken. Ennek roppant egyszerű az oka: a bölcsészetre különösen igaz, hogy ismereteit a nyelv segítségével és sokszor igen terjedelmes szövegekben hordozza. A nagy mennyiségű szövegekben rejlő ismeretek feldolgozására a számítógép föltétlenül alkalmas azzal, hogy fáradhatatlanul és hibátlanul végzi gyűjtőmunkáját, miközben az adatok sokoldalú rendszerezésével az emberi szem elől elrejtett értékes információkat is felszínre hozhat. Kézenfekvő, hogy az ilyen számítógépes rendszerezés igencsak alkalmas irodalmi művek stilisztikai vizsgálatára. Míg jellemzően a hagyományos cédulázást helyettesítik (és eredményességükben tökéletesítik) a különféle költői, írói gyakorisági szótárak, továbbá a szerzői konkordanciák (olyan listák, amelyek ABC-rendben és szövegkörnyezetükkel adják meg az egyes szavak, szókapcsolatok előfordulásait), más alkalmazások kifejezetten "számítógépre íródtak". Ezen utóbbiak között is külön érdeklődésre tarthatnak számot a szerzőségvizsgálatok: számítógéppel végzett statisztikai vizsgálatokkal és valószínűségszámítással igyekeznek eldönteni valamely irodalmi mű korábban ismeretlen vagy vitatott szerzőségét. Az ilyen, feltétlenül látványos eredmények mellett a statisztikai módszereknek kiemelkedő szerepük van az ismert irodalmi művek és szerzők stilisztikai vizsgálatában is, de olyan, látszólag megoldhatatlan feladatok megközelítésében is, mint amilyen irodalmi szövegek tartalmi kivonatolása.

A szűkebb értelemben vett számítógépes nyelvészeti kutatások sok új ismerettel gazdagították a nyelvészetet. A LISP és a PROLOG logikai programozási nyelvek lehetővé tették bizonyos szintaktikai és szemantikai nyelvészeti modellek tesztelését. A mesterséges nyelvek elmélete a nyelvészetre éppúgy, mint a pszichológiára és több más tudományágra több hipotétzis és elméleti modell megalkotásában is termékenyítőleg hatott.

A tágabb értelemben vett számítógépes nyelvészeti kutatás szinte a számítógépes felhasználó mindennapjainak része, függetlenül a felhasználási terület tudományos besorolásától. Itt elsősorban a természetes nyelv leírására feltétlenül támaszkodó mesterséges intelligencia kutatását kell kiemelnünk. A magyarországi bölcsész számítógépes kutatások Kalmár László matematikus akadémikus szárnyai alól röppentek ki. Kalmár László foglalkozott a nyelvészetben is ismert fogalmak, például a homonimia kibernetikai vizsgálatával. Kibernetikai munkacsoportjában nyelvészek és matematikusok, köztük Fónagy Iván és Dömölki Bálint az irodalmi szövegek számítógépes vizsgálatát végezték. Papp Ferenc akadémikus nagyszabású munkája, a Magyar Nyelv Szóvégmutató Szótára láthatóvá tett olyan összefüggéseket, amelyek korábban elérhetetlenek voltak. Az MTA Nyelvtudományi Intézetének nagy vállalkozása, a Magyar Nyelv Nagyszótára ugyancsak nem jöhetett volna létre a számítógép nélkül.

A gyakorlati élet egyre több területén megjelenő információs rendszerek egyike sem nélkülözheti az ún. természetes nyelvi interfész közreműködését. A nyelvésznek számos, az írott vagy a hangzó nyelv modellálásával kapcsolatos feladatot kell megoldania. Prószéky Gábor automatikus morfológiai elemzője alapvetően mindennapjaink szövegszerkesztő munkájában kap szerepet. Olaszy Gábor és Vicsy Klára hangzó nyelvi interfész-kutatásai azt eredményezik, hogy különböző (pl. pályaudvari vagy telefonos) számítógépes rendszerektől természetes nyelven kérhetünk tájékoztatást és ez a "kommunikáció" egyre természetesebbnek tűnik. Az ilyen gyakorlati alkalmazások természetesen olyan kutatások eredményei, amelyek magának a nyelvnek a jobb megértéséből táplálkoznak, így az elmélet és a gyakorlat szintézisének vagyunk a tanúi.

A nagy mennyiségű természetes nyelvi szövegek számítógépes vizsgálatát teszik lehetővé az elektronikus könyvtárak. Magyarországon, többek között, ilyen kezdeményezés az Országos Széchényi Könyvtár Magyar Elektronikus Könyvtára (http://www.mek.iif.hu/).

Az utóbbi időben rohamosan terjedő hasonló gyűjtemények létrehozása természetesen nagyon időigényes, és elektronikus tárolásuk időnként akár jogi problémákat is felvethet, azonban hosszú távon hasznuk felbecsülhetetlen. Az internet-használat rendkívül gyors terjedésével lehetővé válik az elektronikus könyvtárak és a bennük tárolt információ időben és térben jóval kevésbé korlátozott elérése, és ez szinte azonnal is mérhető szellemi és anyagi haszonnal is járhat. A szövegek egyszerű tárolásánál azonban a fejlesztők nem állnak meg: speciális kódolási nyelv (TEI/SGML) alkalmazásával szinte minden formai és tartalmi jellegű adatot meg lehet jelölni és visszakeresni. Ily módon korábban elérhetetlen összefüggéseket lehet visszakeresni és továbbgondolni. A digitális információtárolás lehetővé teszi, hogy szövegeken kívül képet és hangot is tároljunk és előre megadott jellemzőjük szerint visszakeressünk. A bergeni Történeti Múzeum például rovásírással ellátott tárgyakat digitalizált, és ezzel tárgy és szöveg együttes vizsgálatát tette lehetővé. A zeneművek sem maradnak ki e sorból: kották, partitúrák a visszakeresés és elemzés számára éppúgy elérhetővé válnak, mint maguk a szövegek. Kuriózumként említhetjük, hogy lehetővé válik zongora, csembaló és más hangszerek ujjrendjének ellenőrzése vagy meghatározása az előre betáplált szabályok alapján. Az elektronikus könyvtárak további lehetőségei között példaként megemlítjük a Regis University (Denver) rendszerét, amely egy adott szakterületen belül "összefésüli" a különböző folyóiratokban publikált hivatkozásokat, és izgalmas térképét kínálja a szerzők, a művek, a folyóiratok, a szakterületek és módszerek összefüggésének az adott tudományterületen.

Hunyadi László


Humán nyelvtechnológiák: a nyelvtudomány és az informatika határán

Manapság szinte minden felolvasásra vagy kinyomtatásra szánt anyag - újságcikk, tudományos írás, előadás, disszertáció, könyv, törvénytervezet, hozzászólás, feljegyzés, fordítás, levél - már hazánkban is számítógépen készül. Óriási azok felelőssége, akik a magyar helyesírásra igényes felhasználót gépi eszközökkel segítik-tájékoztatják. Az internet terjedésével a felelősség nő: a nyelvhelyesség-ellenőrző programok által ellenőrzött anyagokat naponta több millióan olvassák. A felsorolást folytathatnánk, de talán ebből is érződik, hogy a nyelvi kultúra, a nyelvi műveltség iránt elkötelezett tradicionális nyelvészeti felfogás e jelenségekről - éppen újdonság voltuk miatt - csak részleges információval rendelkezik. Ezt alátámasztja, hogy a közelmúltban megjelent A magyar nyelv az informatika korában c., húsz szerző írásait tartalmazó kötet a fenti problematikát egyetlen helyen említi, ott is csak érintőlegesen.

A magyar MorphoLogic immár kilenc éve végez nyelvtechnológiai kutatást, főként alapkutatást. Ennek finanszírozását éppen az e kutatások segítségével létrehozott nyelvtechnológiai fejlesztéseiből fedezi, bár a magyar nyelv számítógépes védelmét talán nem egyetlen kicsiny - 10-15 fős - magáncégnek kellene vállalnia. Ahogy Glatz Ferenc fogalmaz: "a kis nyelvek korszerűsítési programja sohasem történhet üzleti alapon: nem kifizetődő befektetés". Ugyanakkor 2000-ig se az MTA, se más hazai intézmény nem kezdett nyelvtechnológiai fejlesztésbe a fent említett MorphoLogicon kívül, jóllehet ,,a nyelvi technológiák kifejlesztése a magyar nyelv modernizációjának legalapvetőbb tényezője és feltétele".

Nyelvtechnológia: nyelvészet a számítógép számára

A gépi nyelvészet súlyát épp az adja, hogy ma a számítógép alapvetően a kinyomtatandó vagy felolvasandó - és egyre inkább elektronikus formában megjelenő - dokumentumok előállításának eszköze. Ezt az információtömeget a ma használatos programok nagy része a bennük levő karakterek egymásutánjának, nem pedig gondolatot, információt hordozó egységekből álló szerkezeteknek látja. Ebben segít a nyelvtechnológia. A nyelvi tartalom szerinti szövegfeldolgozás a különböző nyelveken - esetünkben elsősorban magyarul - írt szövegek intelligens kezelését jelenti. A nyelvek grammatikájának számítógép számára készített leírása szükségszerűen különbözik a másik ember számára írttól. Aki világéletében az emberek számára készített nyelvészeti munkákat, nehezen tudja megérteni, elfogadni és különösképpen művelni a gépi nyelvészetet. A nyelvtechnológia tehát nem arról szól, hogy a bölcsészt, a nyelvészt hogyan segíti munkájában a számítógép, hanem sokkal inkább arról, hogy a nyelvészet eredményei hogyan tehetők elérhetővé a számítógép számára. Más szavakkal: a nyelvtechnológia nem számítógép a bölcsészettudományban, hanem bölcsészettudomány a számítógépben!

Áttekintésünk szerkezetét két kérdés, illetve a rájuk adott válaszok figyelembevételével alakítottuk ki. Az egyik kérdés, hogy a szöveg létezett-e már korábban is a számítógépben vagy most állítja elő a számítógép; a másik pedig, hogy ezt a gép számára eddig is meglévő, illetve a most létrejövő anyagot a felhasználó szeretné-e manipulálni (aktív felhasználó), vagy megelégszik a gép nyújtotta lehetőségekkel (passzív felhasználó):

Az írástámogatás a helyes és választékos írást, illetve a szöveg tördelését és elválasztását segítő eszközök által végzett nyelvi tevékenység. Van még terület, ahol a felhasználónak szintén aktív szerepe van, ez a fordítástámogatás. A kettő között az a jelentős különbség, hogy míg a szöveg az írástámogató és beszédmegértő eszközök asszisztálása mellett születik, a fordítástámogatás esetén a kiinduló szöveg már korábban is létezett a számítógép számára elérhető formában. Az írás- és fordítástámogatással szemben a felhasználó passzív szerepet vállal, ha szöveggenerálásról van szó. Ez azt jelenti, hogy a gép a benne reprezentált információt nyelvi vagy más nyelvi formában juttatja el a felhasználóhoz, annak közreműködése nélkül. Ezenkívül a felhasználó aktív közreműködése nélkül a gép kereshet is a meglevő nyelvi információban (kereséstámogatás).

Az írás- és fordítástámogatás legújabb eszközei

A dokumentumok létrehozásában a szerzői eszközök, vagyis az igényes szövegek létrehozását támogató helyesírás-ellenőrző, elválasztó, nyelvtani ellenőrző programok és számítógépes szinonimaszótárak a legnépszerűbb nyelvi segédeszközök. A szinte minden magyarországi alkalmazásba - legutóbb az Office 2000-be - beépült Helyes-e rendszer különböző tagjai immár kilenc éve szolgálják azokat, akik magyar szövegeket írnak számítógéppel. A helyesírás-ellenőrzőnek keresztelt első szoftvermodulok még csak szóellenőrzők voltak. Ám sokszor azt kell megnézni, hogy egybe- vagy különírandó-e valami, kell-e vessző stb. Ez a feladat nem oldható meg, ha fogalmunk sincs az előző és a következő szavakról. Ezzel szemben a Helyesebb, azaz a mondatszintű helyesírás-ellenőrző, több mindent lát, így kombinálni tudja a mondat szavainak nyelvi tulajdonságait, ezáltal bonyolultabb jelenségeket, egybeírást-különírást, vesszőhibákat is kezel. Gondoljuk csak el: a Helyesebb működéséhez olyan nyelvtant kellett írni, mely nem a helyes, hanem éppen a rosszul formált mondatokat ismeri fel!

A globalizáció kísérőjelensége, hogy mostanában szinte mindenkinek egyre több idegen nyelvű szöveg megértésére vagy lefordítására van szüksége. A fordítástámogatás azt jelenti, hogy a fordítást igazából a fordító végzi, de szükség esetén hatékony segítséget kap az e célra a kifejlesztett nyelvtechnológiai eszköztől. A legfontosabb ilyen eszköz talán az intelligens számítógépes szótár, amely: (1) a megfelelő címszót annak tetszőleges toldalékolt formája alapján megtalálja, (2) alkalmas kifejezések keresésére, (3) egyszerre több szótárt kezel, és a keresés eredményeit megfelelően csoportosítja, (4) összekapcsolható számítógépes szövegszerkesztőkkel. Számítógépes szótárak ma már ezerszám kaphatók a piacon, ám ezek közül csak kevés érdemli meg az "intelligens" jelzőt. Ezek közé tartozik a MorphoLogic MoBiDic szótárrendszere is, melynek professzionális változata is készült (az utóbbit nagy terjedelmű szakszövegeket fordító, nagy létszámú - esetleg nem is közös munkahelyen dolgozó - fordítócsoportok számára). A MoBiDic kliens-szerver változata helyi hálózatban és az interneten keresztül is működik, korlátlan számú szótárat kezel egyszerre, emellett támogatja közös felhasználói szótárak - terminológiai adatbázisok - létrehozását. E rendszer speciális igények szerint továbbfejlesztett változatával dolgozik jelenleg a mintegy 40 000 oldalnyi EU-jogszabályanyagot fordító konzorcium több mint 100 fordítója is.

A MorphoLogic fejlesztői az internetes MoBiDic-felület segítségével 1999-ben létrehoztak egy olyan szolgáltatást, amely jelenleg több mint 300 internetes szótár elérési útját és tartalomindexét tartalmazza. A rendszer a kívánt szót vagy kifejezést az interneten levő más szótárakban is megkeresi, a megtalált szócikket pedig már az internetről tölti le, és maga jeleníti meg. E szolgáltatás útján közös felületen jelenhetnek meg a megszokott, a számítógépen helyben meglevő szótárak és az internet szótárai.

Ha a felhasználó egy szöveg egyszerű elolvasásához, megértéséhez keres segítséget (például böngészés közben), nem biztos, hogy az eddig leírt, sok szolgáltatással felszerelt eszközökre van szüksége. Inkább olyan, egyszerűbb programot igényel, amellyel könnyen és gyorsan megtekintheti egy-egy idegen szó jelentését anélkül, hogy el kellene hagynia azt a programot, amellyel éppen dolgozik. Ehhez készült a MoBiMouse program, mely a számítógép képernyőjén megjelenő szavak más nyelvű megfelelőit jeleníti meg buborékban. Első változata angol-magyar (és magyar- angol) szótárat tartalmaz, és Windows-alapú rendszerekben működik. A MoBiMouse egyetlen egérkattintás nélkül használható minden alkalmazásban: csak a lefordítani kívánt szóra kell mutatni az egérrel. Egyedülálló érdekesség, hogy a program három technológiát egyesít: egyrészt speciális karakterfelismerő technikával (mouScan) elolvassa a képernyőre írt szavakat, másrészt előállítja az elolvasott szó szótári alakját, végül végrehajtja a szótári keresést és megjeleníti az eredményt. A MoBiMouse 1999 végén megkapta az Európai Unió információtechnológiai díját is.

Kereséstámogató nyelvi eszközök, szöveggenerálás

Korábban említettük, hogy a szöveg a gép számára pusztán karakterek együttese, az ember számára viszont az információ forrása. Az internet jóvoltából ezekhez a szövegekhez minden eddiginél több ember fér hozzá. Ám ha a szokásos keresőprogramoktól azt kérjük, hogy adjon segítséget a kutyavásárlás témakörében, akkor a kutya vásárlása kifejezés nem lesz találat, arról nem is beszélve, hogy egy esetleges kutyák vásárlása fordulatot magában foglaló dokumentum betű szerint nem is tartalmazná az eredeti betűsorozatot. További kérdés, hogy a rokon értelmű eb szót, illetve annak különböző alakjait mi módon tudná megtalálni a rendszer. Ugyanakkor a kosárlabda EB típusú találatokra igazán nincs szükség, de az ebadó szóra igen, viszont az ebihal alakra ismét nem. Persze a világ soknyelvű, tehát nem zárható ki a dog, chien vagy Hund megfelelő alakjait tartalmazó dokumentumok átnézése sem, hátha onnan jön az ihlet, hol és hogyan érdemes kutyát venni. A feladat megoldásához tehát a szokásos visszakereső eszközökön túl morfológiai, szintaktikai elemzők, tezauruszok, sőt, többnyelvű esetben, kétnyelvű szótárak is szükségesek. Az itt vázolt probléma kezelésére a MorphoLogic 2000 elejére kifejlesztette a nyelvileg pontos keresést garantáló MorphoStem és a SearchGenius programokat.

A legtöbb információt a számítógép is szövegként tárolja. Egyre több azonban az olyan (nem feltétlenül szöveges) anyagok száma, amelyeket a gép különböző műszerek segítségével szerez (időjárás, forgalomfigyelés stb.), adatbázisban tárol (pl. tőzsde), illetve más nyelvi formában juttat el a felhasználóhoz. Például elektronikus leveleinket felolvastathatjuk vele, ha nem vagyunk gép közelében, csak telefont tudunk használni. Ilyen szolgáltatást indított nemrég a Westel 900, a BME Távközlési és Telematikai Tanszék beszédtechnológiájára építve. Ez utóbbinak több alkotórészét (morfológiai elemző, ékezetesítő) is a MorphoLogic fejlesztette ki.

Prószéky Gábor


Adatbázis-kezelés a bölcsészettudományban

Számos más területen - informatika, élő és élettelen természettudományok, üzleti alkalmazások, könyvtári rendszerek, logisztika - már több évtizede használják a folyamatosan fejlesztett és egyre több szolgáltatást nyújtó adatbázis-kezelőket különböző számítógépes platformokon, egyre inkább hálózati környezetben (pl. Oracle, Sybase, Ingres). Ma már azonban elengedhetetlen valamilyen adatbázis-kezelő szoftver használata nagymennyiségű adat tárolására, azok rendszerezésére és azokból részadathalmazok visszanyerésére különböző szempont-kombinációk szerint az egyes bölcsészettudományi és társadalomtudományi diszciplínák területén is.

Az elmúlt évtizedekben egymást erősítve fejlődött a számítógépes nyelvészet, a számítógépes nyelvoktatás, a korpusznyelvészet, a számítógépes lexikográfia, a számítógépes stilisztika, a beszélt és az írott nyelvváltozatok számítógépes adattárolása, a számítógépes statisztikai programok használata (különösen a szociolingvisztika, a szociológia és a pszichológia területén). Hazánkban fontos mérföldkőnek számít Papp Ferenc: A Magyar nyelv szóvégmutató szótára (1969), Prószéky Gábor Számítógépes nyelvészet c. monográfiája (1989), valamint a Kiefer Ferenc, Kiss Gábor és Pajzs Júlia által 1992 óta kétévente szerkesztett Papers in Computational Lexicography sorozat. Ezen területek dinamikus fejlődéséről nemcsak a megjelent könyvek egyre nagyobb száma tanúskodik, hanem az olyan folyóiratok egyre fontosabb szerepe, mint a Computers and the Humanities, Literary and Linguistic Computing, Computational Linguistics, International Journal of Lexicography, International Journal of Corpus Linguistics, valamint az e téren rendezett konferenciák egyre növekvő száma és színvonala.

Kitűnően bevált például a modern számítógépes lexikográfia területén a lexikográfusok és a programozók együttműködése (l. pl. a COBUILD projektumot, ahol a Collins Kiadó és a University of Birmingham közös kutatócsoportja hozta létre a számítógép segítségével készített nyomtatott és elektronikus angol értelmező szótárak egész skáláját vagy az Akadémiai Kiadó nemrég megjelentett Angol-magyar, ill. Magyar- angol szótárát, ill. annak legújabb elektronikus változatát CD ROM-on). Ugyanakkor gyümölcsöző lehet a nyelvész és a programozó szakember hosszú távú együttműködése is, mint pl. Papp Ferencé Jékel Pállal (Ady Endre összes költői műveinek fonémastatisztikája, Debrecen, 1974), Jakab Lászlóé Bölcskei Andrással (Csokonai-szókincstár, Debrecen, 1993).

Sok szempontból egymással párhuzamos fejlesztésnek számít a hipertextes szövegkezelés, a kötetlen formátumú, célprogramokkal lekérdezhető szövegbázisok, az SGML szabvány szerinti platform- és szoftverfüggetlen dokumentumleírás, ill. -kódolás, valamint a (relációs és objektum-orientált) adatbázis-kezelés módszere. Ezek egymással kombinálva, de egymástól függetlenül is alkalmazhatók, sokszor hasonló célok megvalósítására. Egyre nagyobb teret hódít az SGML szabvány szerinti dokumentumleírás, amelynek segítségével különböző típusú dokumentumok írhatók le, ill. kódolhatók (pl. verses és drámai művek, terminológiai adatbázisok, nyomtatott szótárak, primer grafikus és szöveges dokumentumok, nyelvemlékek, táblázatok, képletek, jogi dokumentumok stb.).

A kutató felhasználóként is természetesen tömérdek hasznos információhoz juthat az interneten keresztül lekérdezhető adatbázisok segítségével. Szintén rendkívül hasznos forrás az ASKERIC program, amelyik az ERIC amerikai adatbázishoz viszi a felhasználót, és ahol megfelelő kulcsszavak és kategóriák begépelésével releváns adatok sokaságát kaphatjuk.

Végezetül, saját oktató- és kutatómunkánkkal kapcsolatban (Debreceni Egyetem, Bölcsészettudományi Kar) elmondhatjuk, hogy az elmúlt évek sikeres FEFA programjainak eredményeképpen korszerűen felszerelt számítógépes terem, valamint hálózatba kapcsolt tanári munkaállomásokon keresztül, főleg PC, részben Mac, ill. Unix platformon intenzív kutató- és oktatómunka folyik. Ennek keretében pl. az angol nyelvszakos hallgatók korpusznyelvészeti, számítógépes nyelvészeti, számítógépes lexikográfiai oktatást kapnak, amelynek súlyponti részét képezi a nyelvészeknek szóló adatbázis-kezelés. Kutatómunkájukban többek között a Magyar Nyelvtudományi, az Orosz Nyelvészeti, az Általános és Alkalmazott Nyelvészeti és az Angol Nyelvészeti tanszék használ számítógépes programokat, adatbázis- kezelőket. Jelen sorok írója egy angol tudományos stílusszótáron (A Dictionary of Academic English) dolgozik, amelyhez jelenleg egy 3 millió szavas gyűjtött számítógépes korpusza áll rendelkezésre FoxPro adatbázis táblázatokban, amely munka tágabb értelemben az angol tudományos stílus tudományos elemzéséhez szolgáltat nyersanyagot.

Hollósy Béla


Szóhálózat

A nyelv szókészleti komponense elhanyagolt pontja a nyelvelméleteknek. Az 1985 óta fejlesztett WordNet (szóhálózat) elnevezésű, pszicholingvisztikai kísérletek eredményei alapján létrehozott referencialexikon az első és talán máig egyetlen kísérlet arra, hogy a nyelvelméletek alapjául és végső információforrásául szolgáló szóalapú tudásbázist megfelelően definiálják, majd megtöltsék olyan tartalommal, mely minőségileg és mennyiségileg is lehetővé teszi ezen információforrás elméleti kiaknázását és gyakorlati felhasználását. A WordNet felfogható egy szótárként, mely kizárólag elektronikus (MRD) formában létezik, és amely a következő tulajdonságokkal rendelkezik.

A szókészletet 5 csoportra osztották (főnevek, igék, melléknevek, határozószók és funkció szavak) melyeket a meglévő jelentős különbségek miatt fizikailag is külön tárolnak és kezelnek, mivel ez az agyban is így történik.

A fenti sajátosságból adódóan bizonyos redundancia is beépült. Miller példája alapján a back szó több adatbázisrészben, egymástól függetlenül is megjelenik (melléknévként hátsó, határozóként hátrafelé, főnévként hát, derék, igeként pedig tolat, farol jelentésben).

Szóalakok és jelentések közt relációkat definiáltak (ezek szófajonként eltérőek), melyekkel hierarchikus tudásbázis részeket alakítottak ki.

A lexikális információ szójelentés és nem szóalak alapján van rendszerezve. Ez az a tulajdonság, ami az adatbázis teljes nyomtatott megjelenítését lehetetlenné, a visszakeresést pedig bonyolulttá teszi.

Megvalósították az interfész funkciókat, melyekkel az információdarabkákat ki tudjuk nyerni - különféle szempontok alapján - az adatbázisból.

Az angol szókészletre implementálták, de kialakítása nem nyelv- specifikus.

Amit egy hagyományos, nyomtatott szótár csak megkísérelhet, azt a WordNet minimális követelményként vette fel céljai közé: az adatbázisban lévő szóalakok és/vagy szójelentések között több, pszicholingvisztikailag megalapozottnak tűnő relációt definiáltak. Ezek egy része szófajfüggő, de vannak közöttük olyanok is, amelyek egységesen alkalmazhatóak az egész adatbázisban. Ilyen például a morfológiai relációk csoportja, amely ugyan nem központi jelentőségű, mégis nagy hasznát vesszük, ha pl. a cars szóval találkozunk a szövegben, mely így, többes számban nem szerepel a szótárban. Egy megfelelő reláció (többes szám reláció) létesít kapcsolatot az egyes és a többes számú szóalakok között.

A WordNet megtervezésekor a fő kérdés az volt, hogy mi a természete és szerkezete azoknak a lexikalizálódott fogalmaknak, amelyeket szavakkal fejezünk ki. A WordNet legkisebb egysége a szó-szójelentés pár, aminek megfeleltethető egy ún. jelentéskulcs, amellyel keresésnél azonosítjuk a párokat. A párok szinonimahalmazokba vannak rendezve a szinonímia- reláció (jelentéstani hasonlóság) segítségével. Minden szinonimahalmaz egy fogalom, amihez rövid leírás is tartozik. A WordNet hierarchiák és egyéb struktúrák szinonimahalmazokból épülnek fel. Ezek a struktúrák adatbázis-részenként (szófajonként) eltérőek.

Melyek azok a területek, ahol a WordNet-et már sikerrel alkalmazták? Legszembetűnőbb, és mindenki által használható megjelenési formája az on-line egynyelvű angol szótár, amelyre példa a http://vancouver-webpages.com/wordnet/ címen elérhető felület. Itt mindenki böngészheti, hogy mi az, ami benne van az adatbázisban, és hogy az információ-kinyeréshez milyen interfészfunkciókat valósították meg a fejlesztők. Szótárra számítunk, és azt is kapunk, de máshogyan, mint megszoktuk. Igék esetében az általunk beírt szónak lekérhetők például a szinonimái, antonimái, azok az igék, amelyek az adott ige kiváltó okát fejezhetik ki, vagy azok az igék, amelyek jelentése következik a beírt szó jelentéséből. Számos más asszociációs lehetőség is rendelkezésünkre áll (igék esetén összesen kilenc).

Kulcsfontosságú terület a szövegek jelentéstani felcímkézése, mely abból áll, hogy egy szöveg minden egyes szavához megkísérelünk hozzárendelni egy jelentést, azaz egy WordNet szinonimahalmaz sorszámát. Népszerű a többjelentésű szavak jelentés-egyértelműsítésének problémája, például a bank szóról megfelelő módszerek használatával automatikusan eldönthető, hogy bank vagy folyópart értelemben szerepel egy adott angol szövegben. Ugyancsak gyakori, és nyelvelméleti szempontból igen jelentős kérdés az igei argumentumokon megfigyelhető megszorítások felderítése (például az angol drink /iszik/ ige mondatbeli alanya élőlény, a tárgya pedig, ha van, valamilyen folyadék).

Az internetes keresők, szakértői rendszerek, mesterséges-intelligencia applikációk és rendszerezendő információ-gigabájtok világában égető probléma természetes-nyelvi interfészek kialakítása: kérdés- és keresés-megválaszolás, releváns szöveg kiválasztása megadott kérdésre. A WordNet szempontjából az alapfeladat itt is az, hogy szavakról egyértelműen eldöntsük, melyik szinonimahalmazba tartoznak, majd a bemenetre érkező kérdés vagy lekérdezés alapján súlyozzuk a korábban eltárolt szöveges adathalmaz mondatait relevancia szerint.

Az angol WordNet sikere, valamint a gazdasági-politikai szükséghelyzet (Európában az Unió összes tagállamának nyelve hivatalos nyelv lesz, az iratok jelentős részét a tagállamok összes nyelvére le kell majd fordítani) oda vezetett, hogy megkezdődött a munka a nem angol nyelvű szóhálózatok kialakításán. Annak fényében, hogy Magyarország tagja lesz az Európai Uniónak, talán nem szükséges fejtegetni, hogy e fejlesztések számunkra is tanulságosak. Lehetővé válik például olyan rendszerek kialakítása, amelyek képesek interfészfunkciók ellátására idegen nyelvű és magyar szövegek között (önálló fordításra valószínűleg nem lesz lehetőség, de fordítási segédeszközök kialakítására, ill. fordítást kiváltó eszközök elkészítésére, pl. lekérdezések megvalósítására, tartalmi kivonatok készítésére igen).

Tóth Ágoston


Számítógépes beszédanalízis: a kutatás és oktatás láncszeme

A KLTE (Debreceni Egyetem) Alkalmazott Nyelvészeti Központ 1994-ben teremtette meg a számítógépes beszédvizsgálat bázisát, amely a folyamatos kutatások mellett - világviszonylatban is ritka - laboratóriumi környezetben a fonetika oktatásában is helyet kapott. Az itt nyert vizsgálati adatok számos korábbi hipotézist igazoltak.

Angol anyanyelvi beszélők, hangfelvételek és az 1994-óta eltelt időszak alatt már több száz angol szakos egyetemista, tanuló és tanár kiejtését elemezve az alábbiakra lehet következtetni. A helyes idegennyelvi (angol) kiejtés elsajátítását nem elsősorban az életkorral hagyományosan összefüggésbe hozott tanuláslélektani okok nehezítik meg, hanem a beszédészlelés speciálisan nyelvileg determinált jellege, a pontatlan hallásérzet és a nyelvi gátlás. A hallásérzet nem ad megfelelő támpontot a tanulónak a helyes akusztikai modell rekonstruálásához, rögzítéséhez és reprodukálásához. Vagyis az angolul tanuló mást hall, mint ami akusztikai értelemben hallószerveit éri. A tanuló ugyanakkor arra törekszik, hogy az idegen nyelv másságát valamilyen artikulációs manőverrel biztosítsa, bár valójában nem történt meg sem az akusztikai jel, sem ennek artikulációs vonatkozásainak tudatos vagy intuitív identifikációja. Ezen a ponton jelentkezik a kompenzáló artikuláció, mely általában csak számítógépes vizsgálattal érhető tetten. A leggyakoribbak:

1. Egyes magánhangzók magyartól eltérő artikulációja helyett az alaphang önkéntelen változtatása. Ez a modulálás a nem angol (!) fül számára kommunikatív szempontból kielégítő, hiszen biztosítja egyes fonémák megkülönböztetését.

2. Szupraszegmentális szinten (hangsúly, intonáció, ritmus) ismét általánosan jelentkezik a kompenzáció. Legmarkánsabb megnyilatkozása a hangerősség alkalmazása az alaphang frekvenciájának modulálása (intonáció) helyett. Ismét meg kell állapítani: a magyar anyanyelvű tanuló általában nem tudja nyelvi percepciójában e két lényeges elemet elkülöníteni, a hangsúlyérzet túlzottan kötődik a hangerősséghez, holott az angol számára a hangmagasság nagyobb fontosságú. A jó kiejtésre törekvő beszélő tehát túlzott energiacsúcsokat produkál a hangképen, miközben intonációja változatlan marad. Így kiejtése nem javul, hanem inkább affektálttá válik.

A kompenzáló artikuláció legsúlyosabb következménye az, hogy egy téves akusztikai-artikulációs rendszert alakít ki a beszélőben, melyet a tanuló rögzít, reprodukál, és további viszonyítási alapként kezel. Ezt a jelenséget nevezhetjük hibagenerálásnak (angolul "error-recycling" elnevezéssel célszerű hivatkozni rá). A paradox állapot tehát az, hogy a beszélő olyan elemekkel terheli meg kiejtését, melyek idegenek az anyanyelvtől, és hasonló módon idegenek a célnyelvtől is. Az ilyen kiejtés hosszú távon fárasztó! A beszélő tehát vagy lemond az "angolos" kiejtésről és erős akcentussal beszél, vagy vállalja az akusztikailag sokszor elegánsnak vélt kompenzáló artikuláció fiziológiai ódiumát. Leszögezhetjük: a helyes angol kiejtés nem beszédesztétikai kérdés, hanem az idegen nyelven történő verbális kommunikáció beszédergonómiai pillére.

A számítógépes beszédanalízissel egybekötött artikulációs kísérletek arra utalnak, hogy a legjobb kiejtés a legkönnyebb. A kérdés csupán az, hogyan lehet eljutni a jó kiejtésig?

1. A vizuális visszacsatolás korábban ismeretlen lehetőségeket nyújt a tanulás számára. Gyakorlatilag minden kiejtési eltérés rövid idő alatt korrigálható. Hangsúlyozni kell: nem az angol anyanyelvi kiejtés a cél, hanem a természetes, könnyed beszéd elsajátítása!

2. A beszéd grafikus (akár valósidejű) megjelenítésén túl segítséget nyújt néhány beszédanatómiai vonatkozás is. Az angolban nagyobb szerephez jutnak a nyelv belső izmai (longitudinalis, verticalis, transversus), míg a külső izmok (genioglossus, geniohyoideus, mylohyoideus, digastruicus) kisebb mértékű aktivitást mutatnak, mint a magyar kiejtésben.

3. A nyelvi gátlást le kell küzdeni. Bebizonyosodott, hogy gyakran a tanuló potenciálisan jobb kiejtéssel rendelkezik, mint amilyennel megnyilatkozni mer. A hibagenerálás és a nyelvi gátlás a fő okok. Ha egy csoport tagjait mentesítjük az auditív visszacsatolástól, vagyis saját kiejtésük hallásától fejhallgató segítségével, akkor a tanulók 50%-a perceken belül spontán módon is jobb és természetesebb kiejtéssel fog beszélni.

Fontos megjegyezni, hogy a kívánt eredmények elérése a számítógép intenzív alkalmazása mellett is feltételezi a tanuló aktív együtműködését.

Nagy Tibor


A multimédia a magyarnak idegen nyelvként való oktatásában

Az utóbbi néhány évben a magyar mint idegen nyelv oktatásában is egyre nagyobb szerepet kap a multimédia. A magyar mint idegen nyelv tanítása az indoeurópai nyelvekétől többé-kevésbé eltérő módszert kíván. Ennek egyik oka a nyelv struktúrájából adódik, másik oka pedig pedig a nyelvelsajátításban részt vevők összetételével függ össze. A magyar nyelvet elsajátítani szándékozók az esetek többségében először találkoznak a nem indoeurópai nyelvekre jellemző jelenségekkel (pl. agglutináció, a névszóragozás sokszínűsége, birtokos személyragozás és névutórendszer; tárgyas igeragozás és igekötő-használat; szórendi sajátosságok, illetve nyelvspecifikus fonetikai jelenségek). A külső jellemzők közül két tényezőt kell feltétlenül megemlíteni: a magyaroktatás elsősorban felnőttképzést takar, mivel a magyart idegen nyelvként külföldön főként a felsőoktatási intézményekben oktatják, ill. sokan munkájuk során tanulják (meg) nyelvünket. A másik jellemvonás: a magyartanulóknak csak elenyésző kisebbsége tanulja első idegen nyelvként a magyart (egy 1999 nyarán készült felmérés szerint a magyartanulók átlagban negyedik - a "profi" nyelvtanulók nem egy esetben kilencedik-tizedik - idegen nyelvként tanulják nyelvünket). E két tényező tehát speciális feladatot ró a tananyagok íróira, szerkesztőire.

A Debreceni Nyári Egyetem multimédiás tananyagsorozatának első két eleme a Hungarolingua tananyagsorozatban megjelent regényadaptációk feldolgozása volt. Ezek az adaptációk klasszikus magyar regények rövidített, nyelvoktatási célokra átdolgozott változatai, melyek révén a középhaladó és haladó szintű nyelvtanulók számára lehetőség nyílik a magyar szépirodalmi művek megismerésére. Az elsősorban önálló feldolgozásra készült CD- k a három-, ill. négyezer szótári szót tartalmazó szövegek mellett országismereti információt is tartalmaznak a magyar történelem, irodalom és művelődéstörténet tárgyköréből. A tananyag két, egyszerűen kezelhető modulb-l áll: az egyik a szöveg, a másik a szótári egység, amely egyrészt az ábécérendes szótár behívásával, másrészt a szöveg minden egyes szavára rákattintva aktiválható. A szótár egynyelvű, az adott kontextusnak megfelelő definíciót ad, s ezáltal a szó használati köréről is informál. A hagyományosnak tekinthető szövegfeldolgozás és a nyelvtani szabályok rendszerezése mellett a CD a magyar fonetikai sajátosságokat bemutató audioanyagot és szövegértést segítő videofilmrészleteket is tartalmaz.

A tananyag készítői igyekeztek elkerülni a jól ismert csapdákat: mindenekelőtt azt, hogy a tanuló a szerteágazó haladási lehetőségeken fellelkesülve előbb-utóbb egyfajta labirintusban találhatja magát. A magyar nyelv nem indoeurópai grammatikai szerkezetéből adódóan a tanulás elején rendkívül sok az ismeretlen, semmilyen meglévő egyéni nyelvi kompetenciához nem köthető elem. Mindez a tananyagok rendkívül fegyelmezett, világos szerkesztését követeli meg. A diák a leckeválasztás előtt, ill. a tanulás közben ellenőrző feladatlapok segítségével mérheti fel tudásszintjét. Az eddigi tapasztalatok szerint a magyarul tanulók ezeket a multimédiás anyagokat kedvezően fogadják, egyik legnagyobb előnyüknek az egyszerűen átlátható struktúrát tekintik.

Dobi Edit-Maticsák Sándor


Számítógép és az ókortörténet

Számítástechnika és ókortörténet-írás? Egészen a közelmúltig aligha említette bárki ezeket a fogalmakat együtt. A bölcsészeti tudományokban nemzedékeken át kristályosodott ki a kutatás módszertana: lakása félhomályos zugában antik forrásokból megannyi cédulát gyártó és rendszerező filológus, kopott szalagú írógépén egy sürgős tanulmány immár harmadjára elrontott oldalát idegesen gépelő történész, másnapi előadásához ábrákat, térképeket és táblázatokat hajnalig rajzoló tanár - ez volt a múlt.

És mi a helyzet ma? A kérdésre saját, immár megszokott gyakorlatomból kiindulva, hazai és külföldi tapasztalataim alapján tudok válaszolni, arra tehát, hogy mennyiben változtak a számítógép alkalmazásával az ókorkutató mindennapi lehetőségei.

A hallgatók információkkal történő ellátását szolgálják a tanszéki honlapok. A Debreceni Egyetem Ókortörténeti tanszékének honlapján a tanszék felépítésével, az oktatott tárgyakkal és tanegységekkel, a kollokviumi és szigorlati tételekkel és kötelező irodalommal ugyanúgy találkozhatnak, mint az egyes oktatók által tartott szemináriumok tematikájával és kötelező irodalmával. Bevezetés előtt áll, hogy egy-egy szeminárium hallgatói személyre szabott hozzáférési joggal rendelkeznek a szemináriumvezető honlapjának egyes oldalaira; ott az adott hallgató a saját munkájával kapcsolatos, rá vonatkozó információkat, üzeneteket és feladatlapokat találja meg. Utóbbiakat köteles a megadott időn belül megoldani, kitölteni és lezárni, ezáltal egy elektronikus számonkérési rendszer kialakítására kerülhet sor.

A naprakész szakirodalmi tájékozottság a bölcsészeti kutatásokban is alapkövetelmény. Ugyanakkor nem mindig adott a lehetőség, hogy a vidéken élő kutató, otthonától távol, napokig bújja a könyvtárakat. Napjainkban erre már nem is mindig van szükség. Telnettel, vagy a világháló segítségével aránylag gyorsan elérhető, könnyen és hatékonyan használható a legtöbb hazai, európai és tengerentúli könyvtár anyaga, benne a legfrissebb kötetek címleírásával is, miután azokat már a megrendelés pillanatában beviszik a rendszerbe, a kutató tudomást szerezhet róluk, számolhat megjelenésükkel, és már ebben a fázisban felhasználhatja az adatokat egy-egy téma bibliográfiájának elkészítésében. A lehetőségek ugyanebbe a körébe tartoznak olyan rendszerek, mint a Brynn Mawr egyetem szakirodalmat ismertető honlapja, a Gnomon Online bibliográfia vagy a Tocs In cikkreferátum.

A világháló azonban nem csak ennyi. Bármely böngésző- programmal elérhetők és használhatók egyetemi tanszékek, kutatóhelyek, szakfolyóiratok és múzeumok honlapjai. Előbbiek az oktatás és tudományos kutatás legújabb irányzataival és eredményeivel ismertetnek meg bennünket, és kapcsolatba hozzák egy adott témakör kutatóit: a levelezési és beszélgetési csoportok segítségével eddig soha nem tapasztalt gyorsasággal cserélődik az információ a szakemberek között. Megismerkedhetnek egymás oktatási módszereivel, az egyes tanszékeken oktatott tantervekkel, azok struktúrájával, a tárgyak tematikájával.

Egyes kutatóhelyeken speciális ókortörténeti honlapok találhatók. Az egyik leghasználhatóbb a Perseus Project, mely egyszerre lexikon, forráskiadás és -fordítás, térképgyűjtemény és szakirodalmi tájékoztató. Lehetőség nyílik egy-egy címszó vagy terület anyagának megkeresésére, melynek eredményeképpen rendkívül impozáns anyagot kapunk, a benne szereplő fontosabb adatok mindegyikének további számtalan lehetőségére utalva.

A múzeumok honlapjai esetében kiemelném a virtuális múzeumlátogatás lehetőségét. Bejárhatjuk a múzeumi termeket, megcsodálhatjuk az antik építészet és szobrászat emlékeit. A séta anyaga, annak képei különösebb nehézség nélkül letölthetők saját számítógépünkre, s ez által felhasználhatóvá válnak a további oktató- és kutatómunkában.

A történelem kutatásában és oktatásában speciális szerepük van a számítógépes adatbázisoknak. A történész-filológus számára nélkülözhetetlenek az ókori szövegeket tartalmazó CD ROM-ok. A Packard Humanities Institut (PHI) lemezeinek egyikén (Thesaurus Linguae Graecae) például megtalálható valamennyi antik és kora középkori görög auktor eredeti, mellékjelekkel ellátott szövege. A kikeresett és megtalált szöveghelyet kivágva átemelhetjük szövegszerkesztőnkbe, beépíthetjük készülő tanulmányunkba. Az adatbázisban található keresőrendszerrel tetszés szerinti statisztikákat készíthetünk, összetett filológiai elemzéseket végezhetünk. Megnézhetjük egy-egy kifejezés vagy név előfordulását egy-egy szerző adott művében, vagy éppen teljes életművében. Ugyanilyen szövegkiadása van a latin és görög épigráfiai emlékeknek is (PHI 5 és PHI 7 CD ROM). Gyakorlatilag tehát a latin és a görög szövegek anélkül tanulmányozhatók és használhatók, hogy felkelvén a számítógéptől le kellene emelni őket a könyvespolcról.

Az eddigiek alapján is érzékelhető már, hogy innen kezdve tényleg tág a világ: ha az ókortörténeti és klasszika-filológiai tudományok bármely művelőjének támad egy gondolata és korrekt címszavakban meg tudja határozni, mit is akar kutatni, csak a fentebb említett lehetőségeket használva, a legelérhetőbb honlapokon is minden bizonnyal megtalálhatja vagy a keresett információt, vagy a hozzá szükséges további helyeket (beleértve a könyvtárakat), kapcsolatba kerülhet a világ bármely pontján dolgozó kollégájával. Szaktudományunk eleve kívánatos és szükséges nemzetközisége a számítógépes lehetőségekkel immár élő valósággá vált.

Nemes Zoltán


A számítógép a szociológiai kutatásokban

A számítógép használata a szociológiai és egyéb társadalomtudományi területen nem új keletű, olyannyira nem, hogy a számítógép egyik korai perifériáját, a lyukkártyát a 19. század végén az Egyesült Államok népszámlálásának feldolgozására már használták.

A szociológiai kutatások jelentős részét az empirikus kutatások képezik, ahol általában tekintélyes mennyiségű adatmennyiséget kell kezelni és ezen adatokat főleg matematikai statisztikai módszerekkel feldolgozni és speciális prezentációs eszközökkel bemutatni. Minden kutatásban, így a szociológiában is alapvetően fontos a megfelelő adatgyűjtés. Az utóbbi időben az internet elterjedése egyre több új lehetőséget nyit meg a társadalomtudós előtt. Egyrészről "kitágul" az információszerzés lehetősége: könyvtárak, intézmények adatbázisai válnak elérhetővé, melyek hatékonyabb kutatói munkát tesznek lehetővé, megjelent az "internetes kérdőív", mely során az adatgyűjtés leegyszerűsödik, olcsóbbá válik. [Azonban vigyáznunk kell az ily módon szerzett adatokkal! Ugyanis az így választott (kapott) minta reprezentativitása eltér a statisztikai értelemben vett reprezentativitástól, mivel a mintába kerülőket igen speciális mutatók jellemzik, azaz valamilyen formában internetes kapcsolatuk van, és a kutatónak kell eldöntenie, hogy a minta mit reprezentál.] Másrészről az internet lehet a szociológiai kutatás tárgya, mivel az teljesen átalakítja az életünket, megváltoztatja szokásainkat, s nem elhanyagolható szociológiai probléma az "internetfüggőség" megjelenése.

A kapott eredmények bemutatása grafikonok, táblázatok, szemléletes multimédiás alkalmazások (pl. a filmszociológia, szociofotózás területén) segítségével történik. A különböző területek egymásrautaltságát, az interdiszciplinaritást legújabban a térinformatikai alkalmazásoknak (GIS) a szociológiai kutatásban való elterjedése jelzi.

Ezek a rendszerek helyhez kötött információk gyűjtésére, kezelésére, megjelenítésére és elemzésére szolgáló, nagy teljesítményű számítógépes rendszerek. Az empirikus kutatások során igen eredményesen támaszkodhatunk a GIS alkalmazásokra, hiszen az adatok megjelenítése térképen az információ leolvasásának, átadásának sokkal hatékonyabb módja, mint például egy táblázat.

Márton Sándor

Az összeállítás szerzői

Dobi Edit egyetemi tanársegéd, Debreceni Egyetem; Hollósy Béla, PhD, tszv. egy. doc. Debreceni Egyetem; Hunyadi László, kand., tszv. egy. doc. Debreceni Egyetem; Márton Sándor egy. tanársegéd Debreceni Egyetem; Maticsek Sándor PhD, egy. adj. KLTE; Nagy Tibor egyetemi adj. KLTE; Nemes Zoltán, a tört.tud. kand., egy. docens Debreceni Egyetem; Prószéky Gábor, a nyelvtud. kand., ügyv. ig. Morphologic Kft.; Tóth Ágoston egyetemi tanársegéd Debreceni Egyetem


<-- Vissza az 2000/10. szám tartalomjegyzékére