@article {288, title = {10:00 Automatische evaluatie van vloeiendheid in voorgelezen en spontane spraak}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {
In het kader van ons onderzoek naar de automatische evaluatie van spreekvaardigheid Nederlands als tweede taal (NT2) zijn verschillende experimenten uitgevoerd waarbij verschillende aspecten van spraakkwaliteit zowel door een Continue-Spraakherkenner (CSH) als door menselijke beoordelaars zijn gescoord [zie o.a., 1, 2].
In deze lezing zullen we rapporteren over twee experimenten, eentje met voorgelezen en eentje met spontane spraak, waarbij de spraak van twee groepen van 60 NT2-leerders op het aspect vloeiendheid door mensen en machine is ge{\"e}valueerd. Bij beide experimenten zijn de scores van de CSH vergeleken met de scores die door menselijke beoordelaars zijn toegekend. Vervolgens zijn de data voor voorgelezen spraak vergeleken met die voor spontane spraak. De resultaten laten zien dat automatische scoring van vloeiendheid mogelijk is, hoewel niet alle automatische maten die geschikt blijken te zijn voor voorgelezen spraak even geschikt zijn voor het scoren van vloeiendheid in spontane spraak. Mogelijke verklaringen voor deze bevindingen zullen worden besproken alsmede suggesties voor verder onderzoek.
De huidige commerciele spraakherkenningssystemen komen tot een herkenning van 80 tot 95 procent voor dicteertoepassingen na een spreker-adaptatiefase op ruwweg 10-20 minuten spraak van een testspreker. Deze sprekeradaptatie kleurt het spreker-onafhankelijke akoestisch model bij op basis van de spraakkarakteristieken van de testspreker. In het algemeen wordt het testresultaat voor die spreker aanzienlijk verbeterd, zoals bijvoorbeeld in het geval dat die spreker een accent heeft of dialectisch spreekt.
In dit praatje passeren de volgende punten de revue:
(a) het verschil in herkenning voor en na adaptatie
(b) de {\textquoteright}akoestische{\textquoteright} afstand tussen twee dialecten
(c) fonologische observaties van Nerbonne en Heeringa voor dialect-afstanden.
De meeste data zullen gebaseerd zijn op het Nederlands.
}, author = {Louis ten Bosch} } @article {293, title = {Akoestische parameters versus fonetische kenmerken voor ASH}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {In automatische spraakherkenning (ASH) worden als akoestische parameters meestal cepstrale parameters gebruikt. Deze cepstrale parameters zijn door ons afgebeeld op 2 sets van fonetische kenmerken, resp. gebaseerd op de kenmerken van IPA (International Phonetic Association) en op die van SPE (Sound Pattern of English).
Door de akoestische parameters op fonetische kenmerken af te beelden is het mogelijk de linguistische informatie in het signaal explicieter te modelleren [1,2]. De resultaten van onze experimenten laten zien dat hierdoor ook de foneemidentificatie verbeterd van 15,6\% correct voor cepstrale parameters, naar 42,3\% respectievelijk 31,7\% voor IPA- en SPE-gebaseerde kenmerken. Bovendien zijn de verwisselingen tussen fonemen fonetisch gezien in het algemeen minder ernstig wanneer fonetische kenmerken gebruikt worden.
Om de invloed van de auditieve perceptie op de spraakproduktie van jonge kinderen te onderzoeken zijn de spraakgeluiden van dove en horende kinderen van 2,5 tot 18 maanden oud longitudinaal onderzocht (in samenwerking met C. Clement). Eerst is elke uiting geclassificeerd aan de hand van drie mogelijke typen articulatie en vijf mogelijke typen fonatie gebaseerd op een sensomotorische benadering van de geluidsprodukties van jonge kinderen (Koopmans-van Beinum en Van der Stelt, 1986). Vervolgens zijn alle uitingen met articulatie ingedeeld in drie mogelijke plaatsen van articulatie en zeven mogelijke manieren van articulatie. De resultaten van het onderzoek laten zien dat het gebrek aan auditieve feedback een duidelijke rol gaat spelen vanaf de leeftijd van 6 maanden. V{\'o}{\'o}r deze leeftijd lijkt de spraakproduktie vooral anatomisch en fysiologisch bepaald, hoewel ook dan al verschillen tussen dove en horende kinderen kunnen worden aangetoond.
}, author = {Ineke van den Dikkenberg-Pot} } @article {301, title = {De relatie tussen waargenomen prominentie en woordklassen}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Op grond van 1244 losse zinnen uit kranten, bestaande uit 13091 woorden, is de relatie bepaald tussen woordklassen en prominentie oordelen. De zinnen zijn door verschillende mensen uit heel Nederland voorgelezen. Tien {\textquoteright}na{\"\i}eve{\textquoteright} luisteraars kregen de taak de met nadruk uitgesproken woorden te markeren. Als verwacht zijn de functiewoorden niet of nauwelijks als prominent waargenomen, en de inhoudswoorden als prominent. De verschillende woordklassen laten zich globaal ordenen in een glijdende schaal van niet prominent tot meest prominent. De resultaten vragen echter om een meer specifieke analyse. Naast een indeling in woordklassen, zijn er lexicale items, zoals bepaalde partikels, die zich anders gedragen dan items uit dezelfde woordklasse. Ook is het duidelijk dat woordvolgorde en ritmische alternantie een cruciale rol spelen bij de distributie van prominentie. De gevonden patronen hebben geleid tot een algoritme dat prominentie automatisch voorspelt. Dit algoritme kan van nut zijn binnen de spraaksynthese en de spraakherkenning.
}, author = {Barbertje Streefkerk and Karijn Helsloot} } @article {298, title = {Genuscongruentie en de auditieve verwerking van samengestelde nomina}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Er is nog maar weinig bekend van de herkenning van gesproken samenstellingen. We ondernemen een verkenning voor het Nederlands. Stimulus woorden zijn samenstellingen die bestaan uit twee eenlettergrepige nomina. In de helft van de samenstellingen zijn beide leden van hetzelfde genus; dit zijn zgn. homogene samenstellingen: beide leden zijn "zijdig" (lidwoord is "de") of beide zijn onzijdig (lidwoord is "het"). Iedere homogene samenstelling wordt gematcht door een heterogene samenstelling, waarin het tweede lid vervangen is door een alternatief nomen met tegengesteld genus. Iedere samenstelling is - geblokt over groepen proefpersonen - aangeboden in drie condities:
De diverse samenstelling/ lidwoordcondities zijn geblokt aangeboden aan 6 x 4 luisteraars in een lexicale decisietaak ("is dit een bestaand Nederlands woord of niet?"). Percentage correcte beslissingen en de bijbehorende reactietijden zijn gemeten. De resulaten laten zien dat correcte lexicale decisies het snelst zijn wanneer het lidwoord congrueert met beide leden van de samenstelling (en dus ook met het genus van de samenstelling als geheel). De traagste reactietijd wordt gevonden als het lidwoord strijdig is met het genus van beide leden van de samenstelling. Een conflict tussen lidwoord en alleen het eerste lid van de samenstelling is destructiever dan een conflict met alleen het tweede lid (en dus ook met de samenstelling als geheel). Dit effect is totaal onverwacht: Nederlandse luisteraars zouden geleerd moeten hebben dat een lidwoord niet hoeft te kloppen met het eerstvolgende nomen, zeker niet in een proefsituatie met louter samenstellingen waarin altijd nog een tweede nomen volgt. Kennelijk luistert de Nederlander niet verder dan zijn neus lang is.
}, author = {Leo Koolen and Vincent van Heuven and Wied Ruijssenaars} } @article {292, title = {Het automatisch verkrijgen en verifi{\"e}ren van hypothesen over uitspraakvariatie met behulp van automatische spraakherkenning}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Het modelleren van uitspraakvariatie kan de prestaties van automatische spraakherkenners verbeteren [1]. In [1] hebben wij gebruik gemaakt van fonologische kennis om uitspraakvariatie te beschrijven. Fonologische kennis heeft echter twee nadelen: 1) veel van de resultaten zijn op laboratorium spraak gebaseerd, waardoor ze misschien niet gelden voor andere soorten spraak zoals bv. spontane spraak en 2) de kennis over uitspraakvariatie is niet volledig.
Het type spraak dat wij onderzoeken bestaat uit dialogen tussen mens en machine opgenomen over de telefoon. Het is te verwachten dat de variatie in dit soort spraak niet volledig in de fonologische literatuur is beschreven. Er zijn dus andere methodes nodig om informatie over uitspraakvariatie te verkrijgen.
De methode die wij gebruiken werkt als volgt. Eerst wordt met de herkenner een herkenning uitgevoerd waarbij alle mogelijke opeenvolgingen van fonen herkend kunnen worden. Vervolgens worden uit de resultaten daarvan hypothesen geselecteerd over mogelijke uitspraakvariatie. Een nadeel hiervan is echter dat bij een dergelijke herkenning het percentage goed herkende fonen laag is, in ons geval 63\% [2]. De hypothesen moeten dus geverifieerd worden om te achterhalen of zij daadwerkelijk uitspraakvariatie beschrijven of slechts een bijprodukt van de herkenner zijn. Resultaten van deze verificatie en herkenresultaten zullen gepresenteerd worden.
In dit onderzoek zijn de prestaties van een automatische spraakherkenner verbeterd door het modelleren van uitspraakvariatie.
Hiertoe zijn binnen-woord varianten gegeneerd van vijf frequent voorkomende fonologische processen voor het Nederlands; /n/-deletie, /r/-deletie, /t/-deletie, schwa-deletie en schwa-insertie. Daarnaast werden ook een aantal over-woordgrens varianten getest die betrekking hebben op de volgende fonologische processen: cliticizatie, contractie en reductie. Beide soorten uitspraakvariatie werden zowel in isolatie als in combinatie getest met behulp van de volgende algemene test-procedure:
In deze methode kunnen stap 2 en 3 iteratief herhaald worden.
Het spraakmateriaal dat gebruikt werd bestaat uit opnames van telefoongesprekken tussen mensen en een gesproken dialoog systeem [1]. Het percentage fout herkende woorden in de uitgangspositie was 12.75\%. Door gebruik van zowel binnen-woord varianten als over-woordgrens varianten werd in totaal een absolute significante verbetering fout herkende woorden gemeten van 1.12\% (9\% relatief). Voor meer details zie [2].
Het fonetogram: registratie en visualisatie van stemomvang en stemkwaliteit. Een demonstratie tijdens een fase waarin we hard werken om (1) een complete gegevensopslag (incl. audio) te realiseren in verband met hergebruik van de opnamen als inzichten in bijvoorbeeld akoestische stemparameters wijzigen, (2) een eenvoudige PC versie te realiseren die in de logopedische praktijk te gebruiken is, (3) gegevenspresentatie te verbeteren door toepassing van mediaanwaarden en door (slim) te middelen over grotere grondfrequentie/SPL eenheden, (4) technieken te ontwikkelen om fonetogrammen met elkaar te vergelijken, (5) niet-akoestische parameters toe te voegen, bijvoorbeeld uit het electroglottogram.
}, author = {Gerrit Bloothooft and Peter Pabon} } @article {295, title = {Postvocale /r/-deletie bestaat: veslag van een ondezoek}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {De deletie van postvocale /r/ (voor een consonant) in het Nederlands is een weinig onderzocht, maar een inmiddels zeer manifest verschijnsel. Uit eigen ervaring kunnen we vertellen dat sommige mensen niet meer weten of {\textquoteright}Spijkenisse{\textquoteright} en {\textquoteright}slabbetje{\textquoteright} met of zonder /r/ (voor resp. de {\textquoteright}n{\textquoteright} en de {\textquoteright}t{\textquoteright}) geschreven moeten worden. Sterker nog, we zijn zelfs het woord {\textquoteright}slabber{\textquoteright} tegengekomen als hypercorrecte afleiding van het meer gangbare diminutief {\textquoteright}slabbetje{\textquoteright}.
Naar aanleiding van dit soort observaties hebben we onderzocht of de deletie van postvocale /r/ inderdaad optreedt, en zo ja of ze wordt beinvloed door de volgende factoren:
Het spraakmateriaal bestond uit 450 woorden uit spontaan gesproken zinnen, afkomstig van treininformatiedialogen. Deze woorden werden zowel door geoefende menselijke transcribenten als door een automatische spraakherkenner beoordeeld op de aanwezigheid van /r/. In alle categorieen werden gevallen van /r/-deletie geconstateerd. Bovendien trad /r/-deletie het frequentst op wanneer de voorafgaande vocaal een schwa was.
In de voordracht zullen gedetailleerde resultaten worden gepresenteerd en tevens plannen voor toekomstig onderzoek worden ontvouwd.
}, author = {Henk van den Heuvel and Catia Cucchiarini} } @article {304, title = {Spengi spraaksynthese software (Demonstratie)}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Spengi (SPeech ENGine) is de benaming voor het spraaksynthesesysteem dat op het IPO is ontwikkeld en nog steeds in ontwikkeling is. Spengi is een Phonetics-to-Speech engine, en verwacht dus een fonetische transcriptie als invoer. De synthese is gebaseerd op difonen en de kwaliteit van de spraak is state-of-the-art, mede door goede prosodische beregeling en geavanceerd gebruik van PSOLA technieken.
Er zijn momenteel drie difoondatabases beschikbaar: een vrouwenstem en een mannenstem voor het Nederlands en een vrouwenstem voor het Brits-Engels.
Spengi is beschikbaar als een API en kan daardoor makkelijk in bijvoorbeeld een C-programma geintegreerd worden. Verder zijn er twee front-end applicaties beschikbaar voor demonstratie- en onderzoeksdoeleinden: Ipologue is een conventioneel command-line programma (DOS en UNIX); Calipso is een Windows programma. Beide applicaties zullen op deze dag gedemonstreerd worden.
Beide applicaties kunnen gebruik maken van grafeem-foneemomzetters die ontwikkeld zijn aan de KUN en aan de KUB. Calipso is verder nauw geintegreerd met het signaalbewerkingsprogramma GIPOS.
}, author = {Jan-Roelof de Pijper} } @article {300, title = {Temporele structuur bij normaal en snel spreektempo}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {E{\'e}n van de redenen voor de slechte verstaanbaarheid van versnelde spraak zou kunnen zijn dat de timing van lineair versnelde spraak afwijkt van de timing van snel uitgesproken spraak.
Bij dit onderzoek stonden de volgende vragen centraal: *Hoe verandert de duur van beklemtoonde en onbeklemtoonde klinkers bij hoger spreektempo? *Welke rol speelt zinsaccent hierbij?
In het Engels blijken beklemtoonde klinkers relatief minder verkort te worden bij hoger spreektempo dan onbeklemtoonde klinkers (van Santen 1994). In dit experiment werd onderzocht of dit voor het Nederlands ook geldt. De resultaten lieten zien dat de duurratio{\'\i}s beklemtoonde/onbeklemtoonde klinker aanzienlijk groter werden als gevolg van sneller spreektempo. Het effect van zinsaccent op de klinkerduren wordt kleiner bij hoger spreektempo.
Hieruit blijkt dat de temporele structuur bij sneller spreektempo inderdaad sterk afwijkt van die bij normaal tempo.
}, author = {Esther Janse} } @article {303, title = {Toonhoogtebewegingen en beurtwisselingen}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Welke rol speelt spraakmelodie in het beurtwisselingssysteem? Zijn er aanwijzingen te vinden dat sprekers een accentverlenende stijging gevolgd door vlakke hoge intonatie kunnen gebruiken om aan te geven dat ze hun beurt willen behouden? Om o.a. deze vraag te kunnen beantwoorden is een verzameling zogenaamde MapTask-dialogen opgenomen (gestuurde, maar spontane conversatie). Voorlopig is naast een conversatie-analyse (cf. Couper-Kuhlen \& Selting 1996) een analyse in {\textquoteleft}conversational games{\textquoteright} voorzien (cf. Kowtko, Isard \& Doherty 1993). Het materiaal wordt opgesplitst in eenheden begrensd door pauzes langer dan 100 ms; op elke grens wordt bepaald of er al dan niet een beurtwisseling optreedt. De vorm van het {\textquoteleft}mogelijk laatste accent{\textquoteright} (cf. Selting 1996) zal worden beschreven (m.b.v. ToDI). De verwachting is dat een stijgend {\textquoteleft}mogelijk laatste accent{\textquoteright} gevolgd door vlakke hoge intonatie tot aan de grens over het algemeen niet gevolgd zal worden door een beurtwisseling.
}, author = {Johanneke Caspers} } @article {291, title = {Transcriptie van spontane spraak: een vergelijking tussen mens en machine}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Het onderzoek dat gepresenteerd zal worden heeft uiteindelijk tot doel om te bepalen in hoeverre een automatische spraakherkenner gebruikt kan worden om automatisch fonetische transcripties te maken. Het doel van het experiment dat gepresenteerd wordt is om te bepalen of de spraakherkenner gebruikt zou kunnen worden om automatisch uitspraakvarianten te selecteren. Voor dit experiment is spontane spraak gebruikt, die geselecteerd werd uit conversaties tussen mens en machine via de telefoon. Hiertoe zijn voor 379 woorden (uit 186 uitingen) automatisch uitspraakvarianten gegenereerd, m.b.v. vijf frequent voorkomende, fonologische regels voor het Nederlands die betrekking hebben op deleties en inserties van fonen.
De spraakherkenner en 9 ervaren luisteraars voerden dezelfde taak uit, nl. bepalen welke transcriptie het beste past bij de uitspraak van het woord.
De resultaten laten zien dat het gemiddelde percentage overeenstemming tussen de oordelen van de luisteraars 82\% was. Het gemiddelde percentage overstemming tussen luisteraars en machine was 5\% lager, namelijk 77\%. Meer gedetailleerde analyses zullen gepresenteerd worden (zie verder [1] en [2]).
In de automatische spraakherkenning (ASH) wordt coarticulatie doorgaans behandeld als een ongewenste bron van variatie en wordt vergeten dat ze tegelijkertijd een bron van informatie is. Zo is uit perceptie-experimenten [1] bekend dat klinkertransities belangrijke informatie over de identiteit van de aangrenzende medeklinker bevatten. Toevoeging van klinkertransities leidt in een automatisch consonantidentificatiesysteem tot een toename in de correcte identificatie van medeklinkers met ruim 2 procentpunten; de identificatie van de articulatieplaats wordt zelfs met bijna 20 procentpunten verbeterd [2].
Desondanks leidt de toevoeging van klinkertransities in een consonantidentificatiesysteem waarin akoestische parameters op fonetische kenmerken worden afgebeeld niet tot een noemenswaardige verbetering van de (al hoge) consonantidentificatie. Ook het selectieve gebruik van de transities levert niet het gewenste resultaat op. De meest voor de hand liggende reden is dat de afbeelding van akoestische parameters op fonetische kenmerken de informatie in de transities niet op de juiste manier gebruikt.
Een bekend probleem bij difoonsynthese is het voorkomen van hoorbare discontinuiteiten op difoongrenzen. Formantsprongen op de overgangen suggereren dat het probleem wordt veroorzaakt door spectrale verschillen. In klinkers is het probleem het grootst. In een voorgaand experiment (Klabbers \& Veldhuis 1998) zijn de resultaten van een luisterexperiment gecorreleerd met een aantal spectrale afstandsmaten, om een objectieve afstandsmaat te vinden die het best de hoorbare discontinuiteiten voorspelt. De Kullback-Leibler afstandsmaat (KL), afkomstig uit de statistiek, kwam daarbij als beste uit de bus. Daarna is de difoondatabase uitgebreid met context-afhankelijke difonen. Om het aantal extra difonen te beperken is de KL-afstand gebruikt om difonen die spectraal dicht bij elkaar liggen te clusteren. Daardoor is het niet nodig om alle mogelijke difooncombinaties op te nemen maar kan worden volstaan met een kleinere set. Een tweede luisterexperiment heeft aangetoond dat het aantal hoorbare discontinuiteiten significant is verminderd.
}, author = {Esther Klabbers and Raymond Veldhuis} } @article {302, title = {Wanneer en waaraan horen we of een spraakuiting een vraag is?}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Declaratieve vragen zoals "Marina wil haar mandoline verkopen?" verschillen van lexicosyntactisch identieke mededeelzinnen: (i) het accent op het subject is kleiner, (ii) dat op het object is groter, (iii) er is geen toonhoogte-downtrend, en (iv) er is een zinsfinale toonstijging [van Heuven et al., Proc. ESCA Workshop on Prosody \& Dialog, 1998]. We vermoeden dus dat het mededeel/vraagonderscheid al voor het zinseinde te horen is. We onderzoeken nu de perceptieve relevantie van (i) t/m (iv). We varieren accent op het subject, evenals dat op het object (beide 0, 3, 6, 9 semi-toon); downtrend is -6, -3, 0 en +3 st/s) en er is wel/geen eindstijging (8 st). In experiment I is elk van de toonpatronen aangeboden in vier "gates": (a) "Marina", (b) "Marina wil haar mando", (c) "Marina wil haar mandoline", (d) "Marina wil haar mandoline verko". Twintig luisteraars beslisten of ze het begin van een vraag of van een mededeling hoorden. In experiment II werd de hele zin aangeboden (128 versies); luisteraars beslisten daar of de uiting een vraag of een mededeling was, en hoe duidelijk het zinstype hoor-baar was (0..10-schaal). Resultaten presenteren we tijdens onze lezing.
}, author = {Vincent van Heuven and Judith Haan} } @article {296, title = {/t/-deletie in het Nederlands: wat zegt de spraakherkenner ervan?}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {Recent is er binnen A2RT een tool ontwikkeld voor automatische transcriptie, die ongeveer net zo goed presteert als een menselijke transcribent als het gaat om het selecteren van uitspraakvarianten [1]. Met behulp van deze tool, is het voorkomen van /t/-deletie in het Nederlands onderzocht.
In het VIOS materiaal (mens-machine interacties via de telefoon [2]) komt 75.442 maal een /t/ voor. Daarvan worden er 9.690 gedeleerd (12.8\%). Een voorbeeld van een frequent voorkomend woord is: "hoeft". Het komt 802 keer voor in het materiaal en in 428 van de gevallen wordt de /t/ gedeleerd (53.4\%). In het VIOS materiaal is echter geen informatie over de sprekers voorhanden. Dit is wel het geval voor het Polyphone corpus (o.a. sexe, regio, leeftijd), en daarom wordt dezelfde procedure uitgevoerd op het Polyphone corpus.
Analyses van de resultaten zullen gepresenteerd worden. Een vergelijking zal ook gemaakt worden met de bevindingen van Ton Goeman [3].