@article {154, title = {ASR-based CALL: integrating automatic speech recognition (ASR) in computer-assisted language learning (CALL)}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

More and more computer-assisted language learning (CALL) applications have {\textquoteright}speech inside{\textquoteright}. However, in most cases the speech is produced by the system, i.e. speech is output. The CALL system reads utterances, avatars or movies are shown, and the student has to listen and respond (usually, by means of a mouse or a keyboard). In some of these CALL systems the student is also asked to speak. What these systems do with these utterances spoken by the students differs, e.g. nothing at all, or the speech is recorded to give the teacher the possibility to listen to it (afterwards), or the student immediately has the opportunity to listen to (and/or look at a display of) the recorded utterance, and possibly compare it with an example of a correctly pronounced utterance.

In a few systems automatic speech recognition (ASR) is used to give more detailed feedback. ASR can be briefly described as the conversion of speech into text by a computer. The performance of ASR systems has gradually improved over the last decades, but ASR is certainly not error-free, and probably it will never be, especially for so-called a-typical speech (speech of non-natives or people with communicative disabilities). An important question then is, when and how ASR can usefully be incorporated in applications, such as CALL applications. In my presentation, I will make clear what ASR can and what it cannot (yet) do, within the context of CALL, a-typical speech. Although ASR is not error-free it can successfully be applied in many applications, if one carefully takes its limitations into account. The most well-known application at the moment is probably the reading-tutor, but there are other possibilities. I will present some examples of such applications.

}, author = {Helmer Strik} } @article {197, title = {Uitspraak trainen met een computer: is dat mogelijk?}, year = {2005}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Om antwoord te kunnen geven op deze vraag hebben we allereerst onderzocht welke (segmentele) fouten gemaakt worden door buitenlanders die Nederlands spreken. Van deze fouten hebben we er 11 geselecteerd op basis van de volgende criteria: frequent, persistent, en hinderlijk voor communicatie. Vervolgens is een systeem ontwikkeld dat automatisch kan detecteren of deze 11 doelklanken correct of foutief worden uitgesproken, en hierover feedback geeft. Dit systeem is gebruikt door 15 taalleerders, naast hun reguliere lesprogramma. Deze taalleerders moesten zinnen en losse woorden voorlezen, en kregen hierbij feedback over de uitspraak van de 11 doelklanken. Daarnaast was er een controlegroep van 15 taalleerders die dit systeem niet gebruikten. De resultaten laten zien dat er voor de gebruikers van dit systeem een sterke afname is van het aantal uitspraakfouten voor de 11 doelklanken.

}, author = {Ambra Neri and Catia Cucchiarini and Helmer Strik} } @article {206, title = {Watskeburt? Niets! Zo praten wij gewoon}, year = {2005}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

"Watskeburt" zingt {\textquoteright}De Jeugd Van Tegenwoordig{\textquoteright}, en "Gijwabbedoel" schreef Jan Kuitenbrouwer een tijdje geleden. Dit zijn allebei voorbeelden van (extreme) reductie in de uitspraak van een reeks woorden, zogenaamde multi-woord expressies (MWEs). Opmerkelijk genoeg is er nog weinig onderzoek gedaan naar de uitspraak(-variatie) van deze MWEs. In ons onderzoek hebben we eerst gekeken naar het voorkomen van MWEs: Welke MWEs komen voor?; Hoe frequent?; Zijn er verschillen per spreekstijl?; etc. In het Corpus Gesproken Nederlands (CGN) vinden we bijvoorbeeld {\textquoteright}pgeement{\textquoteright}, {\textquoteright}iefal{\textquoteright}, en {\textquoteright}kweenie{\textquoteright}. Vervolgens hebben we bestudeerd hoe MWEs automatisch geselecteerd kunnen worden, wat geschikte selectiecriteria zijn. Een probleem hierbij is dat er geen (goede) definitie bestaat van MWEs in relatie tot uitspraak. De resultaten laten zien dat woorden in MWEs vaak heel anders uitgesproken worden dan dezelfde woorden in andere contexten.

}, author = {Helmer Strik} } @article {215, title = {Automatische detectie van uitspraakfouten: een akoestisch-fonetische aanpak}, year = {2004}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Om feedback te kunnen geven op de uitspraak van een buitenlander die een vreemde taal leert in een Computer-Aided Language Learning (CALL) omgeving zullen uitspraakfouten automatisch gedetecteerd moeten worden. Een veel gebruikte detectietechniek is die van de "confidence measures"; deze maten worden automatisch berekend met behulp van een automatische spraakherkenner. Een van de grootste nadelen van deze techniek is dat de detectie nauwkeurigheid te laag is. Dat kan te maken hebben met het feit dat "confidence measures" voor alle klanken op dezelfde manier berekend worden; er wordt dus niet gefocused op specifieke eigenschappen van individuele uitspraakfouten.

Wij presenteren een akoestisch-fonetische aanpak waarin we wel specifieke (namelijk akoestisch-fonetische) features gebruiken om uitspraakfouten te detecteren. We zullen ons concentreren op een frequente uitspraakfout in het Nederlands: de niet-stemhebbende velaire fricatief /x/ die foutief wordt uitgesproken als een niet-stemhebbende velaire plosief /k/. Onze experimenten laten zien dat deze akoestisch-fonetische aanpak uitspraakfouten van /x/ kan detecteren met een nauwkeurigheid die hoger is dan die van de "confidence measures".

}, author = {Khiet Truong and Helmer Strik and Catia Cucchiarini and Ambra Neri} } @article {238, title = {Automatische fonetische transcripties: Wat is al mogelijk?}, year = {2003}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Fonetische transcripties zijn nodig voor vele applicaties. Het is bekend dat manuele fonetische transcripties nadelen hebben, onder andere omdat het maken ervan tijdrovend en duur is. Een mogelijk alternatief zijn automatische fonetische transcripties. Maar, in hoeverre is dat nu al mogelijk? Deze vraag krijgen we de laatste tijd steeds vaker te horen. In deze presentatie zal ik proberen een antwoord te geven op deze vraag door een overzicht te presenteren van onderzoek dat al uitgevoerd is en lopend onderzoek. het CGN aanwezig zijn: van voorgelezen spraak over spontane conversaties tot telefoonspraak.

}, author = {Helmer Strik} } @article {278, title = {Een datagebaseerde methode voor het modelleren van uitspraakvariatie voor automatische spraakherkenning}, year = {2000}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In mijn promotieonderzoek modelleer ik uitspraakvariatie in het Nederlands met als doel het verbeteren van de prestaties van automatische spraakherkenners. Tot nu toe heb ik uitspraakvariatie gemodelleerd die beschreven is in de literatuur. Deze methode van modelleren van uitspraakvariatie wordt ook wel "kennis-gebaseerd" genoemd. Het probleem met kennis-gebaseerde methoden is dat niet alle uitspraakvariatie is onderzocht en beschreven in de literatuur. Dit geldt met name voor minder voorbereide, oftewel spontane spraak, en dit is nu juist het soort spraak die huidige herkenners moeten kunnen herkennen. Om deze reden wil ik een andere methode gebruiken om informatie te verkrijgen over uitspraakvariatie. Deze methode heet ook wel "data-gebaseerd" omdat een grote hoeveelheid spraakdata geanalyseerd wordt om informatie over uitspraakvariatie te verkrijgen. Het doel van dit onderzoek is het bepalen of de voorgestelde "datagebaseerde" methode geschikt is voor het modelleren van uitspraakvariatie in automatische spraakherkenners. Hiertoe zijn "datagebaseerde" uitspraakregels opgesteld die de uitspraakvariatie in het spraakmateriaal beschrijven. Met deze regels zijn varianten gegenereerd die gebruikt zijn tijdens het herkenproces. De resultaten van herkenexperimenten met deze varianten en meer details over de methode zullen tijdens de presentatie gegeven worden.

}, author = {Judith Kessens and Helmer Strik and Catia Cucchiarini} } @article {288, title = {10:00 Automatische evaluatie van vloeiendheid in voorgelezen en spontane spraak}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In het kader van ons onderzoek naar de automatische evaluatie van spreekvaardigheid Nederlands als tweede taal (NT2) zijn verschillende experimenten uitgevoerd waarbij verschillende aspecten van spraakkwaliteit zowel door een Continue-Spraakherkenner (CSH) als door menselijke beoordelaars zijn gescoord [zie o.a., 1, 2].

In deze lezing zullen we rapporteren over twee experimenten, eentje met voorgelezen en eentje met spontane spraak, waarbij de spraak van twee groepen van 60 NT2-leerders op het aspect vloeiendheid door mensen en machine is ge{\"e}valueerd. Bij beide experimenten zijn de scores van de CSH vergeleken met de scores die door menselijke beoordelaars zijn toegekend. Vervolgens zijn de data voor voorgelezen spraak vergeleken met die voor spontane spraak. De resultaten laten zien dat automatische scoring van vloeiendheid mogelijk is, hoewel niet alle automatische maten die geschikt blijken te zijn voor voorgelezen spraak even geschikt zijn voor het scoren van vloeiendheid in spontane spraak. Mogelijke verklaringen voor deze bevindingen zullen worden besproken alsmede suggesties voor verder onderzoek.

  1. C. Cucchiarini, H. Strik \& L. Boves (2000) Quantitative assessment of second language learners{\textquoteright} fluency by means of automatic speech recognition technology, Journal of the Acoustical Society of America, January 2000.
  2. C. Cucchiarini, H. Strik \& L. Boves (2000) Different aspects of expert pronunciation quality ratings and their relation to scores produced by speech, Speech Communication.
}, author = {Catia Cucchiarini and Helmer Strik} } @article {293, title = {Akoestische parameters versus fonetische kenmerken voor ASH}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In automatische spraakherkenning (ASH) worden als akoestische parameters meestal cepstrale parameters gebruikt. Deze cepstrale parameters zijn door ons afgebeeld op 2 sets van fonetische kenmerken, resp. gebaseerd op de kenmerken van IPA (International Phonetic Association) en op die van SPE (Sound Pattern of English).

Door de akoestische parameters op fonetische kenmerken af te beelden is het mogelijk de linguistische informatie in het signaal explicieter te modelleren [1,2]. De resultaten van onze experimenten laten zien dat hierdoor ook de foneemidentificatie verbeterd van 15,6\% correct voor cepstrale parameters, naar 42,3\% respectievelijk 31,7\% voor IPA- en SPE-gebaseerde kenmerken. Bovendien zijn de verwisselingen tussen fonemen fonetisch gezien in het algemeen minder ernstig wanneer fonetische kenmerken gebruikt worden.

  1. J. Koreman, B. Andreeva, W.J. Barry (1998) Do phonetic features help to improve consonant identification in ASR? Proc. ICSLP-98, Sydney.
  2. J. Koreman, B. Andreeva, H. Strik (1999) Acoustic parameters versus phonetic features in ASR. Proceedings of the 14th International Congress of Phonetic Sciences, San Francisco, USA, pp. 719-722.
}, author = {Helmer Strik and Jacques Koreman and Bistra Andreeva} } @article {292, title = {Het automatisch verkrijgen en verifi{\"e}ren van hypothesen over uitspraakvariatie met behulp van automatische spraakherkenning}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Het modelleren van uitspraakvariatie kan de prestaties van automatische spraakherkenners verbeteren [1]. In [1] hebben wij gebruik gemaakt van fonologische kennis om uitspraakvariatie te beschrijven. Fonologische kennis heeft echter twee nadelen: 1) veel van de resultaten zijn op laboratorium spraak gebaseerd, waardoor ze misschien niet gelden voor andere soorten spraak zoals bv. spontane spraak en 2) de kennis over uitspraakvariatie is niet volledig.

Het type spraak dat wij onderzoeken bestaat uit dialogen tussen mens en machine opgenomen over de telefoon. Het is te verwachten dat de variatie in dit soort spraak niet volledig in de fonologische literatuur is beschreven. Er zijn dus andere methodes nodig om informatie over uitspraakvariatie te verkrijgen.

De methode die wij gebruiken werkt als volgt. Eerst wordt met de herkenner een herkenning uitgevoerd waarbij alle mogelijke opeenvolgingen van fonen herkend kunnen worden. Vervolgens worden uit de resultaten daarvan hypothesen geselecteerd over mogelijke uitspraakvariatie. Een nadeel hiervan is echter dat bij een dergelijke herkenning het percentage goed herkende fonen laag is, in ons geval 63\% [2]. De hypothesen moeten dus geverifieerd worden om te achterhalen of zij daadwerkelijk uitspraakvariatie beschrijven of slechts een bijprodukt van de herkenner zijn. Resultaten van deze verificatie en herkenresultaten zullen gepresenteerd worden.

  1. Judith M. Kessens, Mirjam Wester \& Helmer Strik (1999). Improving the performance of a Dutch CSR by Modeling Within-word and Cross-word Pronunciation Variation, Speech Communication, 29 (2-4), 193-207.
  2. Mirjam Wester, Judith M. Kessens and Helmer Strik. (1998). Two automatic approaches for analyzing the frequency of connected speech processes in Dutch, Proceedings International Conference on Spoken Language Processing and Student Day, Vol. 7, pp. 3351-3356
}, author = {Judith Kessens and Mirjam Wester and Helmer Strik} } @article {294, title = {Het modelleren van uitspraakvariatie in een Nederlandse spraakherkenner}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In dit onderzoek zijn de prestaties van een automatische spraakherkenner verbeterd door het modelleren van uitspraakvariatie.

Hiertoe zijn binnen-woord varianten gegeneerd van vijf frequent voorkomende fonologische processen voor het Nederlands; /n/-deletie, /r/-deletie, /t/-deletie, schwa-deletie en schwa-insertie. Daarnaast werden ook een aantal over-woordgrens varianten getest die betrekking hebben op de volgende fonologische processen: cliticizatie, contractie en reductie. Beide soorten uitspraakvariatie werden zowel in isolatie als in combinatie getest met behulp van de volgende algemene test-procedure:

  1. Uitspraakvarianten werden gegenereerd en toegevoegd aan het herkenlexicon.
  2. Met de spraakherkenner werd transcriptie gemaakt van het trainingsmateriaal, waarbij onderscheid gemaakt werd tussen verschillende uitspraakvarianten van een woord. Met deze transcripties zijn nieuwe akoestische modellen getraind.
  3. Met het nieuw getranscribeerde materiaal werden ook nieuwe taalmodellen getraind, waarbij verschillende varianten van een woord een verschillende probabiliteit krijgen afhankelijk van de freqentie van voorkomen in het trainingsmateriaal.

In deze methode kunnen stap 2 en 3 iteratief herhaald worden.

Het spraakmateriaal dat gebruikt werd bestaat uit opnames van telefoongesprekken tussen mensen en een gesproken dialoog systeem [1]. Het percentage fout herkende woorden in de uitgangspositie was 12.75\%. Door gebruik van zowel binnen-woord varianten als over-woordgrens varianten werd in totaal een absolute significante verbetering fout herkende woorden gemeten van 1.12\% (9\% relatief). Voor meer details zie [2].

  1. H. Strik, A. Russel, H. Van den Heuvel, C. Cucchiarini \& L. Boves (1997) A spoken dialogue system for the Dutch public transport information service Int. Journal of Speech Technology, Vol. 2, No. 2, pp. 119-129.
  2. Judith M. Kessens, Mirjam Wester \& Helmer Strik, "Improving the performance of a Dutch CSR by Modeling Within-word and Cross-word Pronunciation Variation", to appear in Speech Communication 29(2-4), pp. 193-207.
}, author = {Judith Kessens and Mirjam Wester and Helmer Strik} } @article {291, title = {Transcriptie van spontane spraak: een vergelijking tussen mens en machine}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Het onderzoek dat gepresenteerd zal worden heeft uiteindelijk tot doel om te bepalen in hoeverre een automatische spraakherkenner gebruikt kan worden om automatisch fonetische transcripties te maken. Het doel van het experiment dat gepresenteerd wordt is om te bepalen of de spraakherkenner gebruikt zou kunnen worden om automatisch uitspraakvarianten te selecteren. Voor dit experiment is spontane spraak gebruikt, die geselecteerd werd uit conversaties tussen mens en machine via de telefoon. Hiertoe zijn voor 379 woorden (uit 186 uitingen) automatisch uitspraakvarianten gegenereerd, m.b.v. vijf frequent voorkomende, fonologische regels voor het Nederlands die betrekking hebben op deleties en inserties van fonen.

De spraakherkenner en 9 ervaren luisteraars voerden dezelfde taak uit, nl. bepalen welke transcriptie het beste past bij de uitspraak van het woord.

De resultaten laten zien dat het gemiddelde percentage overeenstemming tussen de oordelen van de luisteraars 82\% was. Het gemiddelde percentage overstemming tussen luisteraars en machine was 5\% lager, namelijk 77\%. Meer gedetailleerde analyses zullen gepresenteerd worden (zie verder [1] en [2]).

  1. J.M. Kessens, M. Wester, C. Cucchiarini \& H. Strik, "The Selection of Pronunciation Variants: Comparing the Performance of Man and Machine", Proc. International Conference on Spoken Language Processing, Vol. 6, pp. 2715-2718.
  2. M. Wester \& J.M. Kessens "Comparison between Expert Listeners and Continuous Speech Recognizers in selecting Pronunciation Variants", Proceedings of the 14th International Congress of Phonetic Sciences, San Fransisco, USA, august 1999, pp. 723-726.
}, author = {Judith Kessens and Mirjam Wester and Catia Cucchiarini and Helmer Strik} } @article {296, title = {/t/-deletie in het Nederlands: wat zegt de spraakherkenner ervan?}, year = {1999}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

Recent is er binnen A2RT een tool ontwikkeld voor automatische transcriptie, die ongeveer net zo goed presteert als een menselijke transcribent als het gaat om het selecteren van uitspraakvarianten [1]. Met behulp van deze tool, is het voorkomen van /t/-deletie in het Nederlands onderzocht.

In het VIOS materiaal (mens-machine interacties via de telefoon [2]) komt 75.442 maal een /t/ voor. Daarvan worden er 9.690 gedeleerd (12.8\%). Een voorbeeld van een frequent voorkomend woord is: "hoeft". Het komt 802 keer voor in het materiaal en in 428 van de gevallen wordt de /t/ gedeleerd (53.4\%). In het VIOS materiaal is echter geen informatie over de sprekers voorhanden. Dit is wel het geval voor het Polyphone corpus (o.a. sexe, regio, leeftijd), en daarom wordt dezelfde procedure uitgevoerd op het Polyphone corpus.

Analyses van de resultaten zullen gepresenteerd worden. Een vergelijking zal ook gemaakt worden met de bevindingen van Ton Goeman [3].

  1. Judith M. Kessens, Mirjam Wester, Catia Cucchiarini, \& Helmer Strik (1998) The Selection of Pronunciation Variants: Comparing the Performance of Man and Machine, Proceedings International Conference on Spoken Language Processing, Sydney, Vol. 6, pp. 2715-2718.
  2. H. Strik, A. Russel, H. Van den Heuvel, C. Cucchiarini \& L. Boves (1997) A spoken dialogue system for the Dutch public transport information service, Int. Journal of Speech Technology, Vol. 2, No. 2, pp. 119-129.
  3. Ton Goeman (1999) T-deletie in Nederlandse dialecten, proefschrift VU, Amsterdam.
}, author = {Mirjam Wester and Helmer Strik} }