@article {479, title = {Forced Alignment: een krachtig hulpmiddel voor spraakonderzoek}, year = {2020}, publisher = {Nederlandse Vereniging voor Fonetiek}, address = {online}, abstract = {In veel onderzoek aan spraak wordt gebruik gemaakt van Forced Alignment. Bij een Forced Alignment wordt de orthografische transcriptie van een bepaald audiofragment "opgelijnd" met dat fragment. Deze oplijning houdt in dat het akoestische begin en einde van elk woord zo precies mogelijk worden gezocht als ankerpunten in de audio. En dit oplijnen geldt niet alleen de woorden maar ook de eventuele stiltes voor, tussen en na de woorden. Als resultaat van de Forced Aligner weet je precies hoe lang woorden en stiltes duren. Deze kennis is van groot belang bij bijvoorbeeld onderzoek naar sprekervariatie, naar uitspraakvariatie, spreektempo, en voor het mogelijk maken van het semi-automatisch doorzoeken van audiobestanden via geschreven queries. Bij het CLST in Nijmegen is in samenwerking met de Stichting Open Spraaktechnologie een aligner gebouwd waarin niet alleen woorden maar ook de spraakklanken in elk woord worden opgelijnd met een audiofile. De resultaten op woord- en foonniveau komen tegelijkertijd beschikbaar als twee tiers in een Praat textgrid file. Daarnaast is het mogelijk de aligner een eigen woordenboek mee te geven waarin bijvoorbeeld specifieke woorden kunnen worden voorzien van afwijkende uitspraakrealisaties. Dat maakt onderzoek aan uitspraakvarianten mogelijk. In de presentatie gaan we in op de functionaliteit van de aligner in een aantal realistische toepassingen, en op de design filosofie van de forced alignment webservice. }, author = {Arjan van Hessen and Louis ten Bosch} } @article {151, title = {Unveiling Personal Memories of War and Detention}, year = {2010}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

Recording and publicizing your {\textquotedblleft}own{\textquotedblright} AV-recorded memories is so easy now a days, that nearly everyone can (and maybe will) do it. Of course, not all the recorded material will be of huge historical or social interest, but how to decide what is valuable and what is not? Most of the AV-recorded material is not or only sparsely enriched with useful meta-data. So, to unveil these recordings, meta-data is necessary. One of the most promising technologies for meta-data addition is automatic speech recognition: a technology used to transform the spoken speech in a sequence of adjacent, most likely said words. At least at this time, a reliable, 95\% correct recognition of the speech is not possible and we have to deal with imperfections: sometimes not more than 40\% of the words are correctly recognized.

Nevertheless, ASR is suitable for the unveiling of spoken memories and the last years we see an increasing number of such projects. In this talk we will present an overview of two upcoming Oral History projects: Sobibor and MATRA.

In the Sobibor project 35 interviews with {\textquotedblleft}nebenkl{\"a}ger{\textquotedblright} (relatives of people killed in Sobibor) and survivors of the Sobibor camp are aligned. Because not all interviewees speak Dutch, multilinguality becomes an issue here.

In the MATRA project 500 inhabitants of Croatia will be interviewed about their memories of the Yugoslavian civil war (1991 and 1995). Full speech recognition for Croatian does not exist yet, so other technologies will be used to unveil these data. Moreover, because only a few people can understand Croatian, full translations in English and automatic term-translation in other languages will be done in order to unveil the data as much as possible.

}, author = {Arjan van Hessen} } @article {122, title = {CLARIN: wat is dat?}, year = {2009}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

CLARIN is een grootschalig Europees samenwerkingsprogramma dat erop gericht is, bestaande talige hulpbronnen en technologie op elkaar af te stemmen en ze via centrale servers voor alle onderzoekers beschikbaar te maken. Het idee achter CLARIN is dat de talige technologieen en data die de afgelopen decennia ontwikkeld zijn, nog te veel alleen door de TST-onderzoekers zelf worden gebruikt. Buiten de TST-community bestaat er nauwelijks besef van wat er allemaal mogelijk is. CLARIN richt zich daarom nadrukkelijk op alle wetenschappers uit de humaniora en de sociale wetenschappen om hen te overtuigen van de zegeningen die de verschillende bestaande talige hulpmiddelen en instrumenten kunnen bieden voor computerondersteunde taalverwerking. In onze voordracht zullen we proberen te laten zien wat de Nederlandse fonetische gemeenschap mogelijkerwijs aan CLARIN kan hebben, en omgekeerd.

Voorbeeldcase:

Iedere onderzoeker kent het: hij/zij heeft nog kasten/tapes/computerschijven vol prachtige data van veldwerk of experimenteel onderzoek, waar helaas niets meer mee gedaan wordt. Deels omdat de prioriteiten verschoven zijn, deels omdat de software/data niet meer compatibel zijn met de huidige standaarden. Door alles nu onder de CLARIN-vlag te brengen (CLARIN-compatibel te maken), wordt het weer mogelijk deze tools/data te gebruiken, waardoor wellicht de hoeveelheid dubbel werk vermindert en mooie collecties bewaard kunnen blijven.

}, author = {Arjan van Hessen} } @article {132, title = {RechtSpraakHerkenning: Nederlandse spraakherkenning in de rechtszaal}, year = {2008}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Utrecht, The Netherlands}, abstract = {

In toenemende mate moeten verhoren door politie volledig worden opgenomen. Ingeval van twijfel, kan dan altijd de oorspronkelijke opname opnieuw beluisterd worden. Ook de Nederlandse rechtbanken experimenteren met geluidsopnamen. De griffier maakt altijd het verslag van de rechtszitting, maar omdat het soms lastig is alles direct tijdens de zitting correct te noteren, worden er al voor intern gebruik dikwijls geluidsopnamen gemaakt: alles wat er gezegd wordt op een cassettebandje!

Door iedere spreker echter op een eigen spoor op te nemen en de opnamen door de spraakherkenner te halen, kan veel meer bereikt worden. De opnamen worden namelijk doorzoekbaar op zowel spreker als spraak. Iedereen die straks toegang heeft tot de opnamen kan met een paar simpele klikken zoeken naar de woorden X,Y en Z, uitgesproken door verdachte A of Rechter B.

De griffier kan de spraakherkenningsresultaten gebruiken om sneller een verslag te maken en rechters kunnen naar een gesproken samenvatting luisteren; bedoeld om hun geheugen op te frissen als ze de zaak weer oppakken na een langdurige onderbreking.

De Taal- en Spraaktechnologie wordt in het RechtSpraakHerkenningsproject ingezet voor de ondersteuning van de rechtbank, niet als vervanging van medewerkers. Rechtspraak blijft vooralsnog toch echt mensenwerk.

}, author = {Arjan van Hessen} } @article {343, title = {Multimedia retrieval}, year = {2006}, publisher = {Nederlandse Vereniging voor Fonetische Wetenschappen}, address = {Nijmegen, The Netherlands}, abstract = {

The number of digital multimedia collections is growing rapidly. Due to the ever declining costs of recording audio and video, and due to improved preservation technology, huge data sets containing text, audio, video and images are created, both by professionals and non-professionals.

The reasons for building up these collections may vary. Organisations such as broadcast companies consider the production and publishing of multimedia data as their core business. Within these companies there is a tendency to search for "means" to get more out the produced content: a nice example is the added basic search functionality in the "uitzending gemist" collection. Other organisations are merely interested in obtaining insight in the internal information flow, for internal (corporate meetings that are recorded) or public use (council meetings that are recorded and webcasted). A number of organisations in the Netherlands administer spoken-word archives: recordings of spoken interviews and testimonies on diverging topics such as retrospective narratives, eye witness reports and historical site descriptions. Modern variants of these spoken-word archives are archives of {\textquoteright}Podcasts{\textquoteright}, {\textquoteright}Vodcasts{\textquoteright} (video podcasts) and {\textquoteright}Vlogs{\textquoteright} (video weblog), created in order to share {\textquoteright}home-made{\textquoteright} information with "the world".

The Human Media Interaction (HMI) group is set within the computer science department and the Centre of Telematics and Information Technology (CTIT) and has a long history in multimedia retrieval research. Especially the use of audio mining and speech recognition technology in multimedia retrieval (SDR or spoken document retrieval) is an important research focus.

The presentation is focussed on the possibility to index and access spoken archives via the use of automatic speech recognition technology. The index, based on the imperfect recognition results is then used to search the document collection and relate individual documents to other information sources in (potentially) any media format. We will discuss the running demo application in which the recognised speech of the 8 o{\textquoteright}clock news is used to connect news items with 5 (most) similar newspaper documents from the Twente News Corpus.

}, author = {Arjan van Hessen} }