-
Notifications
You must be signed in to change notification settings - Fork 0
/
annotation_guide.tex
3508 lines (2504 loc) · 141 KB
/
annotation_guide.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
%% LyX 1.3 created this file. For more info, see http://www.lyx.org/.
%% Do not edit unless you really know what you are doing.
\documentclass[12pt,finnish]{book}
\usepackage[T1]{fontenc}
\usepackage[latin1]{inputenc}
\usepackage{a4wide}
\setcounter{secnumdepth}{0}
\usepackage{array}
\usepackage{longtable}
\usepackage{makeidx}
\makeindex
\IfFileExists{url.sty}{\usepackage{url}}
{\newcommand{\url}{\texttt}}
\usepackage[numbers]{natbib}
\makeatletter
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% LyX specific LaTeX commands.
%% Bold symbol macro for standard LaTeX users
\newcommand{\boldsymbol}[1]{\mbox{\boldmath $#1$}}
%% Because html converters don't know tabularnewline
\providecommand{\tabularnewline}{\\}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% User specified LaTeX commands.
\usepackage{ae,aecompl}
\usepackage[plainpages=false,pdfpagelabels]{hyperref}
\usepackage[pdftex]{graphicx}
\usepackage{lscape}
% Change this if using latex instead of pdflatex:
\graphicspath{{jpgfigs/}}
\DeclareGraphicsExtensions{.jpg,.eps}
\usepackage{makeidx}
\usepackage[T1]{tipa}
\usepackage{tipx}
\usepackage{longtable}
\usepackage{multirow}
\input{/home/lennes/bin/tex/fihyph}
\renewcommand\ttdefault{pcr}
\AtBeginDocument{
\renewcommand{\labelitemiii}{\normalfont\bfseries{--}}
\renewcommand{\labelitemiv}{\normalfont\bfseries{--}}
}
\usepackage{babel}
\makeatother
\begin{document}
\title{Puheaineiston annotaatio eli nimikointi}
\author{Mietta Lennes\\
Sanna Ahjoniemi}
\date{Versio 1.01\\
\today}
\maketitle
\tableofcontents{}
\part{\label{par:Puheen-annotaatio}Puheen annotaatio}
\chapter{\label{sec:Mita-on-annotaatio?}Mitä on annotaatio?}
\textbf{Annotointi\index{annotoida} eli nimikointi\index{nimikointi}
on puhe- tai muun aineiston kuvaamista, luokittelua ja jäsentelyä
systemaattisella tavalla.} Digitaalisesti tallennettu puhenäyte nimikoidaan
yleensä jollakin tähän tarkoitukseen kehitetyllä tietokoneohjelmalla
(esim. Praat, Puh-editori, CLAN, Anvil). Tämä annotaatio-oppaan osa
kannattaa lukea ensin, jos ei ole aikaisemmin nimikoinut l. annotoinut
puheaineistoa.%
\footnote{Lisätietoa puhekorpusten tuottamisesta ja eri korpuksissa käytetyistä
annotaatiotavoista löytyy esim. teoksesta \emph{The Production of
Speech Corpora} \citep{Schiel04}.%
}
Nimikoinnilla (engl. \emph{labeling}) eli annotoinnilla (\emph{annotation}
> \emph{to annotate}) tarkoitetaan sitä, että digitaalisesti tallennettuun
puhenäytteeseen liitetään systemaattisesti nimikkeitä\index{nimike}
(\emph{labels}) eli annotaatioita\index{annotaatio} (\emph{annotations})
eli symbolisia kuvauksia näytteen sisällöstä. Nimikoitavan ääni- tai
videonäytteen on oltava digitaalisessa muodossa ts. yhtenä tai useampana
tiedostona esim. tietokoneen kovalevyllä tai erityyppisillä levykkeillä.%
\footnote{Myös erilaiset \textbf{kirjoitetun tekstin} joukkoon lisätyt tagit
(\emph{tag}) ovat annotaatioita. Tällöin aikaulottuvuutta vastaa tekstin
lineaarinen rakenne (merkkien sijainti tekstin alkuun nähden) ja ääninäytteen
segmenttiä vastaa jokin tekstin osa, jonka ympärille tagit on merkitty.
Tässä oppaassa käsitellään kuitenkin ainoastaan puheaineiston annotaatiota.%
} Alkuperäistä tallennetta, esim. ääni- tai videotiedostoa, jota annotaation
avulla kuvataan, kutsutaan tässä yhteydessä \emph{signaaliksi}\index{signaali}.
Jos kuvataan ääneen luettua, kirjoitettua tekstiä, annotoitava signaali
on aina puhesignaali.
\textbf{Nimikoinnissa annotaatiot on sidottava ääni- tai videonäytteen
aikaulottuvuuteen.} Tämän tavoitteen saavuttamiseksi näytettä kuunnellaan
ja/tai katsellaan ja siitä piirrettyjä analyysikuvia tarkastellaan
nimikointiin tarkoitetulla ohjelmalla. Kuuntelun ja katselun perusteella
luodaan ääni- ja/tai videonäytteen \char`\"{}pariksi\char`\"{} tai
laajennukseksi nimikointitiedosto, joka sisältää näytteen kuvaukset.
Tätä varten näyte yleensä \emph{segmentoidaan}\index{segmentoida}:
siitä rajataan halutulla tarkkuudella \emph{segmenttejä}\index{segmentti}
(ääni- tai videopätkiä, joilla on määrätty alku- ja loppupiste sekä
ajallinen kesto; engl. \emph{segment}). Segmenteille voidaan sitten
antaa nimiä eli \emph{nimikoida} ne. Myös näytteen tietyille yksittäisille
ajanhetkille (aikapisteille, engl. \emph{time point}) voidaan antaa
nimiä (näin syntyy ns. \emph{ankkureita}\index{ankkuri}, engl. \emph{anchor}\index{anchor}).
Nimikoinnin tarkoituksena on muodostaa \char`\"{}maamerkkejä\char`\"{},
joiden perusteella alkuperäisestä puhesignaalista voidaan löytää halutut
osat ja kohdistaa niihin vaikkapa akustisia analyyseja tai muita toimenpiteitä.
\textbf{Nimikointi on välttämätöntä, jos halutaan hallita ja hyödyntää
suurta määrää puheaineistoa.}
Pelkkä ääninäytteen litterointi esimerkiksi tekstitiedostoon ei siis
vielä ole nimikoimista, koska siinä litteraatin eri osia ei kytketä
ääninäytteen vastaaviin ajallisiin kohtiin. Kannattaa huomata, että
litteraatti tai mikä tahansa muu transkriptio on aina tulkinta alkuperäisestä
aineistosta. Siksi pelkän litteraatin avulla ei pitäisi koskaan tutkia
puhetta --- vaarana on, että tulee pikemminkin tutkineeksi litteroijan
näkemystä, joka on vieläpä kuvattu kirjoitetulla kielellä! Käyttämällä
nimikointia aineiston kuvausmenetelmänä varmistetaan mahdollisimman
suora ja tarkka yhteys alkuperäiseen puhetallenteeseen, jolloin tutkijalla
ja tutkimuksen arvioijalla on mahdollisuus tarkistaa ja korjailla
puheesta luotuja kuvauksia.
Annotaatiotyylejä on erilaisia ja tutkija voi kehittää oman annotaatiotavan
sen mukaan, minkälaisista puheen ilmiöistä on kiinnostunut. Annotaatio
voi olla esimerkiksi ortografinen ts. oikeinkirjoitusta noudattava
litteraatti\index{litteraatio} (engl. yl. \emph{transliteration\index{transliteration},
transcript}\index{transcript})\emph{}%
\footnote{Huom. suomessa käsite \emph{translitteraatio} tarkoittaa lähinnä tietyn
kielen kirjoitusasun muuntamista merkkijärjestelmästä toiseen, esim.
venäjänkielisen kirjoituksen kyrillisten aakkosten muuntamista latinalaiselle
aakkostolle. Translitteraatio ei siis ole aivan sama asia kuin litteraatio,
jossa puhetta ''kirjainnetaan''.%
}, morfologisten yksiköiden kuvaus, prosodisten piirteiden kuvaus tai
vaikkapa foneettinen transkriptio puheesta. Ensin mainitussa tapauksessa
segmenttirajat voivat olla vaikkapa yksittäisten sanojen tai lauseiden
välillä, kun taas foneettista tutkimusta varten rajataan usein yksittäisiä
äänteitä.
Jos erilaisia puheen yksiköitä halutaan käyttää hyödyksi yhdessä,
voidaan luoda useita annotaatio- tai nimikointikerroksia tai -tasoja:
yhdelle merkitään esimerkiksi äänteiden rajat, toiselle sanojen rajat,
kolmannelle lauserajat jne. Samalla tallenteella voi myös olla useita
rinnakkaisia annotaatioita: eri tutkijat voivat annotoida saman aineiston
kukin oman näkemyksensä mukaisesti.
Automaattisia segmentointi- ja nimikointimenetelmiä yritetään jatkuvasti
kehittää eri puolilla maailmaa. Toistaiseksi tarkimman nimikoinnin
saa kuitenkin aikaan ihminen, sillä puheen nimikointi vaatii monenlaisten
kielellisten tulkintojen tekemistä. Samasta syystä voidaan todeta
myös, että sekä puheen litterointi, transkriptio että nimikointi ovat
aina jossakin määrin subjektiivisia tuotoksia: niiden tarkkuus ja
johdonmukaisuus riippuvat nimikoijan intresseistä, tiedoista, taidoista
ja teoreettisesta näkemyksestä.
\section{\label{sec:Miksi-puhetta-nimikoidaan}Miksi puhetta nimikoidaan eli
annotoidaan?}
Nimikointityökalua käyttämällä puhenäytteestä on helppo nopeasti ja
tarkasti etsiä, rajata ja kuunnella eri pituisia osia. Tämä helpottaa,
nopeuttaa ja tarkentaa merkittävästi litterointia ja transkriptiota.
Esimerkiksi intonaatiotranskription tekeminen helpottuu, kun kuulohavaintoa
voidaan heti verrata äänisignaalista laskettuun perustaajuuskäyrään.
Nimikoidusta äänitiedostosta voidaan mitata tarkasti puheen eri yksiköiden
kestoja. Mittauksia voidaan suorittaa jopa täysin automaattisesti
(edellyttäen että puhe on nimikoitu mittausten kannalta järkeviin
yksiköihin). Erilaiset akustiset analyysit voidaan automaattisesti
kohdistaa vain tarvittaviin osiin näytettä. Nimikoinnin perusteella
tehdyt mittaukset voidaan milloin tahansa toistaa täysin identtisinä.
Tutkimustuloksiin on siten helppo myöhemmin palata.
Digitaalinen ääninäyte säilyy tarvittaessa täysin muuttumattomana
pitkiäkin aikoja ja siitä voidaan tehdä identtisiä kopioita. Alkuperäistä
digitoitua ääninäytettä (esim. keskusteluäänite) ei tarvitse välttämättä
pilkkoa pienempiin osiin jokaista tutkimusta tai demoa varten, vaan
se voidaan säilyttää kokonaisena esimerkiksi CD- tai DVD-levyillä,
eikä tällöin menetetä informaatiota esimerkiksi taukojen kestoista.
Digitaalista, systemaattisesti nimikoitua puheaineistoa on helppo
jakaa muidenkin tutkijoiden kanssa. Muut tutkijat voivat nopeasti
tutustua nimikoituun puhenäytteeseen ja käyttää sitä soveltuvin osin.
Nimikointeihin voidaan tehdä muutoksia ja lisäyksiä oman tarpeen mukaan.
Tämän oppaan periaatteiden mukaisesti nimikoitu äänitiedosto voidaan
liittää osaksi kaikkien tutkijoiden käyttämää puhetietokantaa, eikä
tutkijoiden tarvitse aina itse kerätä ja nimikoida uusia aineistoja.
Annotaation tekeminen on usein pitkäveteistä puurtamista. Jokaisen
puheentutkijan olisi kuitenkin hyödyllistä yrittää annotoida itse
ainakin koemielessä pieni osa käyttämästään aineistosta, sillä näin
oppii ymmärtämään annotaatioprosessia ja sen vaikutuksia tutkimukseen.
Usein annotoidessa löytää myös mielenkiintoisia uusia tutkimuskohteita.
\subsection{\label{sub:Johdonmukainen-annotaatio}Johdonmukainen annotaatio}
Puheen kuvauksessa tulee pyrkiä noudattamaan yhtenäisiä periaatteita,
jotta aineiston annotaatio pysyisi kauttaaltaan mahdollisimman tasalaatuisena
ja jotta se olisi kenen tahansa tutkijan käytettävissä ja ymmärrettävissä.
Annotoijalle pitää olla aina täysin selvää, mitä ilmiötä, yksikköä
tai käsitettä ollaan annotoimassa, ja tietyntyyppiset yksiköt pitää
rajata ja merkitä johdonmukaisesti aina samalla tavalla.
Käytännössä ihmiset ovat usein eri mieltä annotoitavien yksiköiden
rajauksesta ja nimikkeistä. Yhdessä sovitut annotointiperiaatteet
on helppo unohtaa, ja tyypillisesti annotoija muuttaa yhdenkin annotaatioprojektin
aikana näkemystään ''hyvästä annotaatiosta'' useita kertoja. Tämä
on aivan luonnollinen ilmiö, sillä monet teoreettiselta kannalta hyödylliset
puheen yksiköt eivät olekaan selkeästi erotettavissa ja rajattavissa
todellisesta puhesignaalista. Puheessa ei esimerkiksi normaalisti
ole taukoja sanojen välillä, ja puheentuoton aikana ihmisen ääntöelimistö
on käytännöllisesti katsoen jatkuvassa liikkeessä, joten äänteiden
rajatkin ovat ''sumeita''. Annotointi perustuu siis aina annotoijan
tulkintaan puheaineistosta.
Tämän oppaan tarkoituksena on antaa yleisiä ohjeita erilaisten yksiköiden
annotointia varten. Tavoitteena on, että jokainen tutkija käyttää
annotoidessaan tässä oppaassa määriteltyjä yksiköitä niin pitkälle
kuin se on mahdollista. Mikäli tutkija haluaa tarkentaa määritelmiä
tai käyttää kokonaan uusia yksiköitä, ne tulisi määritellä ja julkaista
virallisesti Puh-editorin avulla (ks. \ref{sec:Uuden-annotaatioyksikon-maaritteleminen}).
\section{\label{sec:Akustisten-analyysien-hyodyntaminen}Akustisten analyysien
hyödyntäminen nimikoinnissa}
Puhetta voidaan nimikoida sekä akustisin että auditiivisin perustein.
Digitaalisen puheen analysointiin luodut tietokoneohjelmat tuottavat
puheesta erilaisia akustisia analyyseja, joita voi hyödyntää myös
nimikoinnissa. Näitä ovat mm. spektrogrammi, perustaajuuskäyrä, intensiteettikäyrä,
aaltomuoto ja spektrianalyysi.
\subsection{\label{sub:Spektrogrammi}Spektrogrammi}
Äänteiden nimikoinnissa erityisesti \emph{\label{sub:leveakaistainen-spektrogrammi}leveäkaistainen
spektrogrammi\index{leve\"akaistainen spektrogrammi}} (laskentaikkunan
koko n. 4,3 ms) on usein hyödyllinen, sillä siinä erottuvat selvästi
äänen spektrirakenteen nopeat ajalliset muutokset, jotka liittyvät
puhujan artikulaatioliikkeisiin. \emph{\label{sub:kapeakaistainen-spektrogrammi}Kapeakaistaisesta
spektrogrammista\index{kapeakaistainen spektrogrammi}} (laskentaikkunan
koko n. 29--35 ms) näkyvät puolestaan parhaiten puheen soinnillisten
osien perustaajuuden ja osasävelten liikkeet, joten sitä voidaan hyödyntää
prosodisten piirteiden, erityisesti intonaation kuvauksessa.
\subsection{\label{sub:Intensiteettikayra}Intensiteettikäyrä}
Intensiteetti (joka on epäsuorassa yhteydessä havaittuun äänekkyyteen)
on riippuvainen äänteen laadusta: esim. vokaalit ovat luonnostaan
äänekkäämpiä kuin konsonantit, sillä ääntöväylä on vokaalien aikana
avoimempi. Intensiteettikäyrä voi siksi auttaa joidenkin äännerajojen
havaitsemisessa. Laajemmin tarkasteltuna intensiteettikäyrä voi myös
antaa informaatiota puhujan aiheuttamasta puheäänen voimakkuuden lisäyksestä
ja liittyy siten myös prosodisiin ilmiöihin. Intensiteettikäyrä on
kuitenkin herkkä puhujan ja mikrofonin väliselle etäisyydelle: jos
puhuja liikahtaa vähänkin suhteessa mikrofoniin, esim. kääntää päätään
kun mikrofoni on pöydällä, tämä vaikuttaa äänisignaalista laskettuun
intensiteettiin. \char`\"{}Headsettiin\char`\"{} kiinnitetty mikrofoni
pysyy paremmin paikallaan puhujan suun vieressä, joten intensiteettikäyrässä
näkyvät heilahdukset johtuvat tässä tapauksessa todennäköisemmin puheentuoton
muutoksista. Huomaa, että intensiteettikäyrästä saadut desibeliarvot
eivät tarkoita sinänsä mitään, jollei alkuperäistä äänitettä ole kalibroitu
(ts. suhteutettu tiettyyn referenssiääneen jo äänityshetkellä)!
\subsection{\label{sub:Perustaajuuskayra}Perustaajuuskäyrä}
\emph{Puheen perustaajuus\index{perustaajuus}} eli \emph{F0\index{F0}}
viittaa soinnillisissa äänteissä siihen taajuuteen, jolla äänihuulet
''värähtelevät'' tai paukahtelevat toisiaan vasten. Yksittäistä
jaksoa, jonka aikana äänihuulet erkaantuvat toisistaan ja palaavat
takaisin yhteen, kutsutaan \emph{periodiksi}%
\footnote{Kapeakaistaisessa spektrogrammissa (ks. \ref{sub:kapeakaistainen-spektrogrammi})
soinnillisten äänteiden osasävelet (\emph{harmonics}) erottuvat aaltoilevina
raitoina, joista alimmainen kuvaa perustaajuutta. Leveäkaistaisessa
spektrogrammissa (\ref{sub:leveakaistainen-spektrogrammi}) puolestaan
erottuvat yksittäiset äänihuuliperiodit pystysuorina raitoina. Periodit
voi erottaa myös äänen aaltomuodosta toistuvina aaltokuvioina, kun
aaltomuotoa tarkastellaan suurennettuna.%
}\index{periodi}\index{periodisuus}. Periodeja esiintyy siis vain
soinnillisissa äänteissä, ja samasta syystä laskennallisessa perustaajuuskäyrässä
näkyy katkos soinnittomien äänteiden kohdalla, vaikka puheen melodia
havaitaankin jatkuvana.
Perustaajuus ilmoitetaan yleensä hertseinä\index{hertsi}: esimerkiksi
miespuhujille tyypillinen sadan hertsin perustaajuus siis tarkoittaa
sataa äänihuulten värähdystä sekunnissa. Perustaajuuskäyrän muoto
voi oikein tulkittuna hyvin nopeasti ja tarkasti vahvistaa tai kumota
kuulonvaraisen ja subjektiivisen havainnon puheen sävelkulussa tapahtuvasta
noususta tai laskusta. Joskus se voi auttaa myös äänteiden nimikoinnissa:
pienikin perustaajuuden muutos voi olla syynä kuulonvaraisesti löytyneeseen
rajakohtaan.
Laskennallinen perustaajuus ei kuitenkaan ole sama asia kuin havaittu
intonaatio tai sävelkulku. Perustaajuuskäyrään ei kannata luottaa
sokeasti, sillä siinä voi laskennallisista syistä esiintyä äkillisiä
hyppäyksiä ja toisaalta perustaajuuskäyrään vaikuttavat myös äännekohtaiset
seikat. Prosodiikasta kiinnostuneen kannattaa katsella lähempää myös
äänen aaltomuotoa (\ref{sub:Aaltomuoto}) ja spektrogrammeja (\ref{sub:Spektrogrammi}),
sillä ne voivat paljastaa perustaajuusanalyysin virhelähteitä (esim.
narinaan liittyvät epäsäännölliset äänihuuliperiodit).
\subsection{\label{sub:Aaltomuoto}Aaltomuoto}
Aaltomuoto eli oskillogrammi kuvaa ääniaaltoa eli alkuperäiseen ääneen
liittyviä ilmanpaineen ajallisia vaihteluita, jotka on rekisteröity
tietystä paikasta mikrofonin avulla. Tietokoneen näytöllä olevan aaltomuotokäyrän
yksikkö on kuitenkin tavallisesti voltti (V), sillä mikrofoni on muuntanut
ilmanpaineen vaihtelut sähköiseen muotoon, joka on sitten näytteistetty
digitaaliseksi äänisignaaliksi.
Aaltomuotokäyrän vaaka-akseli kuvaa siis aikaa, joka etenee vasemmalta
oikealle. Pystyakseli kuvaa ääniaaltojen laajuutta eli amplitudia.
Mitä suurempi ääniaallon amplitudi on tarkasteltavalla ajanjaksolla,
sitä suurempi on vastaavasti ollut ilmanpaineen muutos ja sitä voimakkaampi
ääni on ko. ajanjaksolla ollut. Äänen amplitudi ei kuitenkaan vastaa
suoraan ts. lineaarisesti havaittua äänenvoimakkuutta eli äänekkyyttä.
Äänekkyyshavaintoon vaikuttavat ihmisen kuulojärjestelmän ominaisuudet
(psykoakustiikka) ja muutkin seikat.
Aaltomuotokäyrää voidaan käyttää esimerkiksi äänteiden tarkkaan segmentointiin
spektrogrammin ohella, sillä siitä näkyvät äänessä tapahtuneet pienimmätkin
muutokset. Aaltomuoto voi paljastaa myös äänenlaadussa tapahtuneita
muutoksia, jotka voivat selittää esimerkiksi perustaajuuskäyrän odottamattomia
katkoksia tai hypähtelyjä.
\section{\label{sec:Aineiston-luomat-rajoitukset}Aineiston luomat rajoitukset}
Mitä enemmän taustahälyä annotoitavassa signaalissa on, sitä epätarkempaa
annotointi on. Hyvin hälyisestä aineistosta ei kannata yrittää etsiä
kovin hienojakoisia piirteitä, sillä lopputuloksesta voi tulla heikkotasoinen.
Jos esim. puheäänitteessä on tasainen mutta melko vaimea taustakohina,
äänteiden rajat pystyy yleensä akustisen signaalin kuvauksia katsomalla
määrittämään riittävän tarkasti esimerkiksi äännekestojen mittaamista
varten.
Erilaiset hälyn lähteet ja taustahälyn tyypit on syytä kuvata mahdollisimman
tarkasti jo tallenteen (Recording) taustatiedoissa.%
\footnote{Tallenteen taustatiedot\index{taustatiedot} eli ns. \emph{metatiedot\index{metatiedot}}
tai \emph{metadata\index{metadata}} on kuvattava Puh-editorin avulla
aina, kun aloitetaan kokonaan uuden puheaineiston annotaatio.%
} Jos häly ei jatku koko tallenteessa, tallenteen käyttökelpoisuutta
lisää huomattavasti, jos hälyn ajallinen levinneisyys on merkitty
omaan annotaatiokerrokseensa (ks. \emph{Noise}-annotaatioyksikkö,
\ref{sub:Noise-haly}).
\section{\label{sec:Annotointityokalut}Annotointityökalut}
Puheen annotointiin on olemassa monia työkaluja, joilla on erilaisia
ominaisuuksia. Tämä ohjeistus soveltuu parhaiten annotointiin Puh-editori-nimisellä
ohjelmalla. Annotaatiota voi kuitenkin tehdä myös muilla ohjelmilla,
kunhan pitää mielessään tässä dokumentissa annetut ohjeet (ks. esim
kuva \ref{fig:Esimerkki-dialogin-annotaatiosta}). Tällöin annotaatiotiedostot
voidaan automaattisesti muuntaa puhetietokantajärjestelmään sopiviksi.
\begin{landscape}%
\begin{figure}
\begin{center}\includegraphics[%
width=22cm,
keepaspectratio]{/home/lennes/annotation_guide/jpgfigs/conv_ann_example.jpg}\end{center}
\caption{\label{fig:Esimerkki-dialogin-annotaatiosta}Esimerkki dialogin annotaatiosta\index{dialogin annotaatio, esimerkki}
Praat-ohjelmalla. Puhujien S1 ja S2 puheeseen liittyvät annotaatioyksiköt
on merkitty eri kerroksiin. Topic-kerroksessa on vapaamuotoinen englanninkielinen
kuvaus puheenaiheesta: tässä on menossa keskustelu vanhoista elokuvista.}
\end{figure}
\end{landscape}
\subsection{\label{sub:Annotointi-Puh-editorilla}Annotointi Puh-editorilla}
Puh-editori ohjaa käyttäjää noudattamaan ohjeita ja määrittelemään
käyttämänsä annotaatioyksiköt tarkasti. Puh-editorissa voidaan annotoida
lukuisia annotaatiokerroksia samanaikaisesti. Puh-editoria käyttämällä
kaikki annotaatiot ovat suoraan yhteensopivia liitettäväksi puhetietokantaan,
ja niitä voidaan myös helposti jakaa muiden tutkijoiden kanssa. Puh-editori
voidaan asentaa tietokoneisiin, joissa on Windows- tai \linebreak
Linux-käyttöjärjestelmä. Editorin voi ladata ilmaiseksi omalle koneelleen
www-osoitteesta
\url{http://www.csc.fi/kielipankki/puhe/index.phtml}
Samassa paikassa on myös ohjelman käyttöopas.
\subsection{\label{sub:Annotointi-Praat-ohjelmalla}Annotointi Praat-ohjelmalla}
Jos käytät annotointiin Praat-ohjelmaa (\citealt{Boersma}), kaikki
tekemäsi annotaatiokerrokset (Tier) ovat fyysisesti täysin erillisiä.
Eri kerroksissa olevien yksiköiden välisiä suhteita voi kuitenkin
kuvata niiden mahdollisen ajallisen päällekkäisyyden avulla. Tätä
tietoa voi Praatin sisällä hyödyntää vain skripteissä.
Praat-ohjelmalla tehdyt annotaatiotiedostot (TextGrid) on mahdollista
muuntaa puhetietokannan käyttämään muotoon. Osoitteessa
\url{http://www.csc.fi/kielipankki/puhe/index.phtml}
on linkki ohjattuun konvertointi- ja julkaisutyökaluun (\emph{Publish
TextGrid Web Wizard}), joka muuntaa Kielipankin puheaineistoista tehdyt
annotaatiotiedostot Puh-editorin ymmärtämään muotoon ja julkaisee
annotaatiokerrokset. Tämä mahdollisuus kannattaa huomioida jo Praatilla
annotoitaessa.
\begin{itemize}
\item Varmista, että sellaisilla eri kerroksissa olevilla annotaatioyksiköillä,
joilla on keskenään esimerkiksi osa-kokonaisuussuhde, on täsmälleen
päällekkäiset alku- ja loppurajat. Esim. jos annotoit Praatilla sanakerroksen
ja tavukerroksen, varmista, että sanan alkuraja on täsmälleen samalla
kohdalla kuin sanan ensimmäisen tavun alkuraja, ja että sanan loppuraja
on täsmälleen samassa kohdassa kuin sanan viimeisen tavun loppuraja
(ks. esimerkkejä sanakerroksesta kuvassa \ref{fig:Esimerkki-dialogin-annotaatiosta}).
Tietyssä kerroksessa oleva rajaviiva voidaan kohdistaa toisessa kerroksessa
olevan rajan kanssa ''tarttumalla'' rajaan hiirellä, vetämällä se
toisessa kerroksessa olevan rajan päälle ja vapauttamalla sitten hiiren
painike. Kohdistettujen rajojen perusteella voidaan haku- ja analyysivaiheessa
yhdistää tavuyksiköt vastaaviin sanayksiköihin.
\item \label{ite:piirteiden-annotointi-Praatilla}Jos jonkin annotaatiokerroksen
A yksiköille pitää määrittää lisäpiirteitä tai \linebreak -ominaisuuksia
niin, että kutakin segmenttiä tms. yksikköä vastaa aina maksimissaan
yksi toisen tason B yksikkö tai piirre, pidä huolta, että kerros A
on tyyppiä IntervalTier ja kerros B tyyppiä PointTier. Merkitse kerrokseen
B piste tai ankkuri (point) silmämääräisesti suunnilleen A-kerroksen
vastaavan yksikön puoliväliin. Anna tarvittaessa B-tason pisteille
nimet, jotka kuvaavat piirteen arvoja tai sisältöjä. \\
Tässä tapauksessa PointTieriä kannattaa käyttää, koska segmenttirajoja
joutuu merkitsemään vähemmän, eikä B-tason rajojen kohtia yleensä
tarvitse korjata, vaikka A-tason segmenttien rajat hieman muuttuisivatkin.
PointTierin sisältämät piirrearvot on Puh-editorissa helppo muuntaa
A-tasolle merkittyjen yksiköiden piirteiksi.
\end{itemize}
\part{\label{par:Annotaatioyksikot}Annotaatioyksiköt}
Tutkijan ja annotoijan on hyvä huomata, että seuraavat yleisluonteiset
annotaatioyksiköt on muodostettu ensisijaisesti niiden laajaa käyttöä
ajatellen. Tarkoitus ei siis ole ollut juuttua lujasti mihinkään tiettyyn
teoreettiseen viitekehykseen vaan antaa ohjeet siitä, kuinka puheaineistosta
voidaan rajata usein käytettyjä yksiköitä ja piirteitä mahdollisimman
yksiselitteisesti siten, että yksiköt soveltuvat tietokantajärjestelmään.
On myös itsestään selvää, että kaikki yksiköt eivät sellaisenaan sovellu
kaikkien aineistojen nimikointiin.%
\footnote{Tässä oppaassa kuvatut yksiköt ja niiden käyttöohjeet vastaavat Kielipankin
julkaiseman RDF-skeeman \url{http://www.csc.fi/kielipankki/puhe/schemas/official/annotation/coreUnits.rdfs}
sisältämiä määrittelyjä. Kielipankin tarjoama Puh-editori tukee kyseistä
RDF-skeemaa ja ohjaa annotoijaa käyttämään oikein valmiiksi määriteltyjä
perusyksiköitä. Tätä ohjeistoa ja annotaatioyksiköitä kannattaa kuitenkin
soveltaa myös muilla ohjelmilla annotoitaessa.%
}
Tutkijalle jää lopullinen vastuu siitä, ovatko näin syntyneestä tietokannasta
tehdyt haut mielekkäitä ja siitä, kuinka hän itse yhdistelee erilaisia
yksiköitä niin, että saa haluamansa tiedon esille. Mikään alla kuvatuista
yksiköistä ei yksinään tuota kovin hyödyllistä tietokantaa, mutta
kun samasta aineistosta on olemassa useita erityyppisiä annotaatiokerroksia
--- mahdollisesti jopa monen eri annotoijan tekeminä --- on tietokannan
rakenteessa paljon implisiittistä informaatiota, joka voidaan oikein
rakennetuilla hakukriteereillä houkutella päivänvaloon. Näin myös
eri alojen tutkijat voivat toimia paremmin yhteistyössä ja hyödyntää
toistensa tietämystä.
\chapter{\label{cha:Yksikoiden-kaytto}Kuinka annotaatioyksiköitä käytetään?}
\section{\label{sec:Annotaatioyksikoiden-kaytto}Annotaatioyksiköiden käyttö}
Tässä oppaassa esiteltävät annotaatioyksiköt ovat perusyksiköitä,
jotka on pyritty määrittelemään selkeästi mutta vain yleisellä tasolla,
jotta eri tutkijat voisivat soveltaa niitä mahdollisimman laajasti.
Näihin yksiköihin ei kuitenkaan ole pakko tyytyä. Mikäli tutkija tai
annotoija päätyy systemaattisesti käyttämään tietystä perusannotaatioyksiköstä
tarkempaa tai hienojakoisempaa kuvaustapaa, tai mikäli hän päätyy
annotoimaan täysin uudenlaista piirrettä puheaineistosta, on tarpeen
määritellä uusi annotaatioyksikkö. Uusia yksiköitä voidaan määritellä
Puh-editorilla, jolla määritelmät voidaan myös julkaista muille tutkijoille.%
\footnote{Puh-editoria ei silti ole välttämätöntä käyttää varsinaiseen puheaineiston
nimikointiin, kunhan yksiköiden määritelmiä noudatetaan. Uudet yksiköt
tulisi kuitenkin aina määritellä Puh-editorin avulla, jotta niiden
käyttötapa selkiytyy muille annotoijille.%
}
\section{\label{sec:Uuden-annotaatioyksikon-maaritteleminen}Uuden annotaatioyksikön
määritteleminen}
Perusannotaatioyksiköistä voidaan tarvittaessa \emph{periyttää\index{periyttäminen}}
aliyksiköitä\index{aliyksikkö}, joilla on samat ominaisuudet kuin
emoyksiköllään, mutta sen lisäksi joitakin uusia ominaisuuksia. Tällöin
on huomattava, että \emph{uusi aliyksikkö perii välttämättä kaikki
ne ominaisuudet ja piirteet, jotka sen emoyksiköllä on}, eikä aliyksikkö
siis saa olla ristiriidassa emoyksikön määritelmän kanssa.%
\footnote{Tämä ehto on seurausta yksiköiden määritelmien tallennukseen käytettävästä
standardoidusta RDF-dokumenttiformaatista, joka mahdollistaa määritelmien
perusteella tapahtuvan koneellisen päättelyn. Esimerkiksi Puh-editori
voi RDF-muotoisten määritelmien perusteella valvoa, että annotoija
todella noudattaa määritelmässä mainittuja rajoituksia.%
} Jotta uusien aliyksiköiden luominen olisi mahdollisimman joustavaa,
on useimpien tämän oppaan yksiköiden kuvauksen tarkka muoto jätetty
annotoijan päätettäväksi.
Kuvitellaan, että esimerkiksi annotaatioyksikölle \emph{MyBasicUnit}
on määritelty ominaisuus \emph{label} (nimike tai tekstikuvaus), jolle
on määritelty tietty joukko mahdollisia arvoja, esimerkiksi ''tyyppi1,
tyyppi2, tyyppi3''. Jos tälle yksikölle määritellään uusi aliyksikkö,
niin myös aliyksiköllä on välttämättä ominaisuus \emph{label} joka
voi saada (ainakin) samat kolme arvoa. Aliyksikölle voidaan kyllä
lisätä uusia ominaisuuksia mutta ei poistaa perittyjä.
Sellaisia kokonaan uusia yksiköitä, jotka eivät voi olla minkään aikaisemmin
määritellyn varsinaisen annotaatioyksikön aliyksiköitä, voidaan periyttää
esimerkiksi apuyksiköstä \textbf{Chunk} (\ref{sec:Chunk-jakso}),
jolla ei ole etukäteen annettuja ominaisuuksia ja jonka ''perilliset''
voivat siksi kuvata mitä tahansa tallenteen tapahtumaa tai piirrettä.
\subsection{\label{sub:Milloin-tarvitaan-uusi}Milloin tarvitaan uusi annotaatiokerros?}
\emph{Periaatteena on, että kaikille sellaisille annotoitaville ilmiöille,
jotka voivat esiintyä tallenteessa päällekkäisinä, tulisi luoda erilliset
annotaatiokerrokset. }
Samassa annotaatiokerroksessa voidaan siis kuvata vain yhdentyyppisiä
taikka useammantyyppisiä mutta toisensa poissulkevia yksiköitä. Esimerkiksi
tietyn puhujan sisään- ja uloshengitykset (ks. \ref{sub:Breathing-hengitys})
kannattaa merkitä omaan kerrokseensa, koska puhuja pystyy periaatteessa
tuottamaan puhetta (ja tekemään kaikenlaista muutakin) sekä sisään-
että uloshengittäessään. Toisaalta sekä sisään- että uloshengitykset
voidaan taloudellisimmin kuvata samassa kerroksessa, koska puhuja
ei voi tehdä molempia yhtä aikaa.
\subsection{\label{sub:Sama-vai-eri}Sama vai eri yksikkö?}
Jos yksiköiden rajat eri annotaatiokerroksissa \emph{poikkeuksetta
yhtenevät}, kyseessä on saman yksikön kaksi eri piirrettä. Tällöin
toisen annotaatiokerroksen rajaukset ovat redundantteja, ja turhan
lisätyön sekä virheiden välttämiseksi kannattaisi annotaatiokäsitteistöön
määritellä vain yksi yksikkö, jolla on kaksi piirrettä.
\subsection{\label{sub:piirteiden-maarittely}Annotaatioyksikön piirteiden määritteleminen}
Puh-editorissa annotaatioyksiköille voi lisätä haluttuja ominaisuuksia
tai piirteitä, joille voi tarvittaessa määritellä rajatun joukon sallittuja
arvoja. Puh-editorilla voi esimerkiksi lisätä jollekin yksikölle piirteen
''painoaste'' ja luetella tälle vaikkapa arvot ''0,1,2,3'', joilla
haluaa kuvata havaitun painollisuuden määrää. Jos joku jatkossa käyttää
samaa määritelmää, hän voi Puh-editorissa antaa ko. yksiköille ainoastaan
painoasteita nollasta kolmeen. Tämä helpottaa ja yhtenäistää kuvauksen
valintaa. Piirteille voitaisiin yhtä hyvin antaa muuntyyppisiäkin
arvoja, esim. ''painollinen, painoton''. Koska valittujen piirrearvojen
joukko on periaatteessa mielivaltainen ja riippuu käyttäjän tarpeista,
on useimpien piirteiden määrittely jätetty käyttäjien tehtäväksi.
\subsubsection{\label{sub:yksikoiden-yhteiset-ominaisuudet}Kaikkien yksiköiden
yhteiset ominaisuudet}
Kaikilla annotaatioyksiköillä on myös joukko valmiiksi esimääriteltyjä
piirteitä. Annotoija voi tarvittaessa määritellä kullekin yksikölle
erikseen \emph{\label{yksikon-aanilahde}äänilähteen\index{äänilähde}}
(\emph{soundSource}\index{soundSource}), mikäli esimerkiksi puhuja
vaihtuu keskellä annotaatiokerrosta. Myös kunkin yksikön \emph{\label{yksikon-kieli}kielen\index{kieli}\index{yksikön kieli}}
(\emph{language}\index{language}) voi määritellä erikseen, mikäli
halutaan osoittaa, etä puhuja käyttää kesken kaiken vieraskielisiä
sanoja. Äänilähteellä ja kielellä on oletusarvot, jotka on määritelty
kyseisen tallenteen metatiedoissa. Oletusten mukaisia piirrearvoja
ei siis tarvitse erikseen annotoida. Kuhunkin yksikköön voi lisätä
vapaamuotoisen \emph{\label{yksikon-kommentti}kommentin} (\emph{comment}\index{comment}),
jossa voi vaikkapa kuvailla yksikön rajaamisessa esiintyneitä vaikeuksia
tai erikseen määrittelemättömiä lisäominaisuuksia. Yksikön \emph{\label{yksikon-tila}tilaa\index{yksikön tila}}
tai \emph{työvaihetta\index{yksikön työvaihe}} (\emph{status}\index{status})
voi kuvata jollakin seuraavista piirteistä:
\begin{quote}
0 ei määritelty
1 virheellinen\index{virheellinen annotaatio}
2 tekeillä (kesken\index{keskeneräisyys})
3 OK (valmis, hyväksytty\index{nimikoinnin hyväksyminen}\index{annotaation hyväksyminen})
4 kelluva (ei aikaan sidottu)\index{kelluva yksikkö}
\end{quote}
\textbf{Yksikön saa merkitä valmiiksi (status = 3) ainoastaan siinä
tapauksessa, että on itse tarkastanut ja hyväksynyt yksikön kaikkine
nimikkeineen ja todennut, että se noudattaa annotaatioyksikön määritelmässä
ja tässä oppaassa annettuja suosituksia.}
\emph{\label{Kelluva-yksikko}Kelluva yksikkö}\index{kelluva yksikk\"o}
(\emph{floating unit}\index{floating unit}; status = 4) tarkoittaa
sellaista annotaatioyksikköä, jonka halutaan olevan mukana annotaatiossa,
mutta jolle ei voida määrittää alkamis- ja päättymisaikaa. Kelluvina
yksiköinä voidaan kuvata esimerkiksi erilaisia abstrakteja lingvistisiä
yksiköitä, joille ei nähdä olevan suoraa vastinetta puhesignaalissa.
Samassa annotaatiokerroksessa olevilla kelluvilla yksiköillä on tietty
keskinäinen järjestys, muttei siis esimerkiksi ajallista kestoa.
Jokaisella yksiköllä on myös ominaisuudet \emph{alkupiste} ja \emph{loppupiste}
(vaikka nämä olisivatkin täsmälleen samassa aikapisteessä tai vaikka
yksikkö olisi kelluvassa tilassa). Alku ja loppu tallentuvat yksikön
piirteinä automaattisesti, kun yksikön rajoja siirretään jollakin
annotaatioeditoriohjelmalla. Lisäksi Puh-editori tallentaa jokaiselle
yksikölle automaattisesti \emph{luontiajan} ja viimeisimmän \emph{muokkausajankohdan}.
Mikäli käytät nimikointiin Praat-ohjelmaa, lue ohje piirteiden annotoinnista
Praatilla (\ref{ite:piirteiden-annotointi-Praatilla}).
\section{Suositeltava annotointijärjestys}
Uuden puhetallenteen annotointi aloitetaan yleensä karkeimmalta tasolta,
esimerkiksi vuorojen (\emph{Turn}, ks. \ref{sub:Turn-vuoro}) tai
puhunnosten (\emph{PhoneticUtterance}, ks. \ref{sub:PhoneticUtterance-puhunnos})
annotaatiosta. Samalla aineisto litteroidaan (puheen kielellinen sisältö
saatetaan kirjoitettuun muotoon), jollei aineiston tekstisisältö ole
ennalta tiedossa (esim. ääneen luettu puhe). Annotointijärjestys riippuu
kuitenkin ennen kaikkea siitä, minkälaiset piirteet aineistosta aiotaan
nimikoida.
Jos tallenteesta on olemassa aiemmin julkaistu annotaatiokerros, josta
aiot julkaista oman version, on suositeltavaa, että käytät pohjana
aiemmin julkaistua annotaatiokerrosta. Näin on mahdollista hakuvaiheessa
hyödyntää tietoa siitä, mitä kohtia olet muuttanut. Toisen tekemää
annotaatiokerrosta on myös paljon helpompi muuttaa kuin nimikoida
itse kokonaan uusi alusta asti.
Jotkut annotaatioyksiköt eivät oikeastaan kuvaa signaalia sellaisenaan,
vaan ovat jonkinasteisia abstraktioita. Tällöin ne ovat myös riippuvaisia
jostakin toisesta, yleensä konkreettisemmin signaalia kuvaavasta yksiköstä.
Esimerkiksi tavuja (ks. \ref{sub:Syllable-tavu}) ei lingvistisessä
mielessä esiinny puheessa sellaisenaan, vaan ne voidaan tunnistaa
tai analysoida vasta, kun puhutut saneet (ks. sanayksikkö, \ref{sub:Word-Sana})
on tunnistettu. Tämän vuoksi tavuyksiköitä ei pitäisi annotoida sellaisenaan
vaan yhdessä sanekerroksen kanssa tai vasta sanekerroksen annotoinnin
jälkeen, jolloin tavujen yhteys saneyksiköihin voidaan ilmaista. Myös
prominenssi on aina riippuvainen jostakin toisesta nimikointikerroksesta,
esim. tavu- tai sanakerroksesta. Jäljempänä mainitaan jokaisen yksikön
kohdalla, onko yksikkö riippuvainen joistakin muista annotaatioyksiköistä.
\section{Perusyksiköiden kuvaukset}
Jokaisen alempana esitetyn perusannotaatioyksikön kuvaus on jaettu
neljään osaan. Ensimmäinen osa sisältää yksikön määritelmän. Toisessa
osassa on ohjeita ja vinkkejä yksikön paikantamiseen ja rajaamiseen.
Kolmannessa osassa käydään läpi yksikön suhteet muihin yksiköihin
eli annetaan ohjeita siitä, minkä annotaatiokerroksen yksiköiden rajojen
kanssa yksikön rajat pitäisi tarpeen tullen kohdistaa. Neljännessä
osassa esitetään, minkälaisia symbolisia kuvauksia tai luokituksia
(nimikkeitä tai piirrearvoja) kyseisen nimikointikerroksen yksiköille
on mahdollista antaa.
\chapter{\label{cha:Foneettiset-yksikot}Foneettiset yksiköt}
\section{\label{sub:PhoneticUtterance-puhunnos}PhoneticUtterance\index{PhoneticUtterance}
\--- puhunnos\index{puhunnos}}
\subsection*{Määritelmä ja käyttötarkoitus}
Puhunnos on jakso, jonka aikana sama puhuja yhtäjaksoisesti artikuloi.
Puhunnoksen voi päättää tauko, hengitys (jonka aikana ei artikuloida),
täytetty tauko, tms.
\subsection*{Paikantaminen ja rajaaminen}
Rajataan mahdollisimman tarkasti signaalin ja kuulohavainnon perusteella.
Mikäli samassa signaalissa esiintyy päällekkäin useita puhujia, rajaamisessa
kannattaa käyttää apuna signaalin visualisointeja, jotka auttavat
löytämään puhunnoksen alun ja lopun.
Jos aineisto on laaja, puhunnosten rajaamisessa voidaan käyttää apuna
automaattisia menetelmiä ts. puhunnokset (tai tauot) voidaan alustavasti
rajata äänisignaalin intensiteetin perusteella. Rajaus on kuitenkin
tarkistettava käsin.%
\footnote{Ohje tämän tehtävän suorittamiseksi Praat-ohjelmalla löytyy www-osoitteesta
\url{http://www.helsinki.fi/\~{}lennes/praat-scripts/howto/pilkkominen.html}%
}
\subsection*{Riippuvuudet muista yksiköistä}
Puhunnokset liittyvät suoraan signaaliin/signaaleihin, jossa/joissa
ko. puhuja esiintyy. Mikäli sane- ja foonikerrokset ovat olemassa,
puhunnoksen rajojen pitäisi noudattaa ao. sane- ja äännerajoja silloin
kun mahdollista.
\subsection*{Kuvauksen valinta}
Noudatetaan (suomen) ortografiaa ilman välimerkkejä tai isoja alkukirjaimia,
mutta puhe kuvataan siinä muodossa kuin se on lausuttu, ts. puhunnoksen
sisältöä ei muunneta esimerkiksi kirjoitetun kielen mukaiseen asuun.
Jos puheen kielellinen sisältö on ainakin suurelta osin ennalta tiedossa
(esim. luettu teksti) ja teksti on olemassa sähköisessä muodossa,
puhunnosten nimikkeiden lisäys voidaan tehdä puoliautomaattisesti.
\section{\label{sub:Phone-fooni-aanne}Phone\index{Phone} \--- fooni\index{fooni},
äänne\index{äänne}}
\subsection*{Määritelmä ja käyttötarkoitus}
Puheäänne eli fooni on tietyntyyppisen artikulaatioliikkeen abstraktio.
Yleensä äänteiden luokittelussa käytetään jotakin yleisesti tunnettua
transkriptiojärjestelmää, esimerkiksi kansainvälistä foneettista aakkostoa
(\emph{International Phonetic Alphabet} eli \emph{IPA}\index{IPA}),
joka määrittelee, minkälaiset artikulatoriset piirteet ovat tärkeitä
ja voivat esiintyä maailman kielissä ja kuinka näitä tulisi merkitä.
Äänteiden segmentointi ja foneettisen transkription tekeminen vaatii
runsaasti harjoittelua ja perehtymistä artikulaatiofonetiikkaan.
Äänteitä voidaan luokitella ja kuvata käyttötarkoituksesta riippuen
eri tarkkuuksilla. Äänteiden nimikointi perustuu ensisijaisesti havaintoon,
mutta akustisia kuvauksia on aina syytä käyttää apuna erityisesti
äännerajojen paikantamisessa.
\subsection*{Paikantaminen ja rajaaminen}
Tunnistetaan ensin sekä kuulonvaraisesti että akustisten kuvausten
perusteella äänne ja sen naapuriäänteet. \char`\"{}Zoomaa\char`\"{}
äänen visualisointia niin, että ruudulla on näkyvissä vain 3\--10
äänteen mittainen pätkä ja aaltomuotokuvaajan pienemmätkin \char`\"{}ripellykset\char`\"{}
erottuvat selvästi. Kuuntele eri mittaisia pätkiä näkyvissä olevalta
alueelta, jotta löydät äänteet paremmin. Äänne pitää aina tunnistaa
kuuntelemalla sitä kontekstissaan. Jos segmenttiä kuuntelee yksinään,
sen tarkkaa laatua ei useinkaan voi havaita oikein, ja segmentin alussa
ja lopussa voi kuulua häiritseviä naksahduksia, jolleivät segmenttirajat
ole tarkasti amplitudin nollakohdissa.
Tämän jälkeen asetetaan alku- ja loppurajat äänteen tyypin mukaisesti
(ks. esimerkit liitteessä \ref{cha:Aanteiden-segmentointiesimerkkeja}).
Jos äänneyksiköitä tuntuu löytyvän odotetusta poikkeava lukumäärä,
on parasta uskoa havaintoaan ja valita näille yksiköille parhaiten
sopivat symbolit. On huonompi ratkaisu sijoittaa äänteiden rajat mielivaltaiselta
tuntuviin paikkoihin ja käyttää niille huonosti sopivia symboleita.
Mikäli äänne tuntuu olevan esimerkiksi vain yhden äänihuuliperiodin
mittainen tai erittäin lyhytkestoinen (esim. alle 10 ms), sitä ei
normaalitapauksessa kannata rajata erillisenä äänteenä vaan jommankumman
naapurinsa osana.
Mikäli vokaaliäänne on selvästi diftongi (tavunsisäinen vokaalijono),
rajataan sen alku- ja loppuosa erillisinä äänteinä. Huomaa kuitenkin,
että joskus fonologisessa mielessä odottamasi diftongi saatetaan tuottaa
monoftongina \-- älä silloin pakota segmenttiä kahteen osaan. Samat
neuvot koskevat tavurajan ylittäviä vokaaliyhtymiä.
Pitkiä foneemeja edustavat äänteet rajataan vain yhtenä äännesegmenttinä.
Esim. pitkä /k:/-konsonantti rajataan samalla tavalla kuin lyhyt /k/,
sillä äännekerroksessa näillä ei välttämättä ole selvää foneettista
eroa. (Huom: Vain yksi {[}k{]} segmentoidaan myös, vaikka löytäisit
aaltomuotokuvasta pitkähkön {[}k{]}-äänteen keskeltä useita laukeaman
näköisiä ''sykkyröitä''! On hyvin tavallista, että {[}k{]}-klusiilin
laukeama on epämääräinen, sillä kielen selkä on pinta-alaltaan suuri
ja sen liikuttelu artikuloidessa on luonnostaan vähemmän tarkkaa kuin
esimerkiksi kielen kärjen.)
\paragraph*{Tee rajaus seuraavien periaatteiden mukaisesti:}
\begin{enumerate}
\item Sijoita raja auditiivisin perustein kohtaan, jossa rajan vasemmalla
puolella olevaa osiota kuunnellessa rajaa seuraava äänne ei vielä
erotu kuulohavainnon perusteella ja rajan oikealla puolella olevaa
osiota kuunnellessa et erota mikä edellinen äänne on.
\item Tarkenna auditiivisin perustein tekemääsi rajausta siirtämällä rajaa
akustisin perustein löytyneeseen muutoskohtaan, jos tämä on tarpeen
eikä aiheuta kovin suurta muutosta rajan paikkaan.
\item Kun rajan paikka on suunnilleen löytynyt, noudata lisäksi seuraavia
sääntöjä aina, kun se on tarkoituksenmukaista (ts. kun raja ei edelliseen
kohtaan nähden siirry kohtuuttomasti):
\begin{enumerate}
\item Jos äänne on soinnillinen, sijoita raja äänihuuliperiodin alkuun.
Soinnillisuuden tunnistat siitä, että aaltomuodossa näkyy lähes samanlaisina
toistuvia kuvioita
\item Sijoita raja äänisignaalin nollakohtaan, ts. kohtaan, jossa aaltomuotokäyrä
ylittää vaakasuoran nollarajan.
\item Sijoita raja kohtaan, jossa aaltomuotokäyrä nousee ylöspäin.
\item Sijoita raja jonkin oheisen esimerkin mukaisesti.
\end{enumerate}
\end{enumerate}
Esimerkkejä eri äänteiden välisten rajojen sijoittamisesta on liitteessä
\ref{cha:Aanteiden-segmentointiesimerkkeja}.
\subsection*{Riippuvuudet muista yksiköistä}
Äännesegmentti liittyy suoraan signaaliin tai kaikkiin signaaleihin,
joissa äänne esiintyy samalla hetkellä saman puhujan tuottamana. Mikäli
puhunnos-, tavu- ja sanekerrokset ovat ennestään olemassa, tulisi
puhunnosten, tavujen ja saneiden alku- ja loppurajat soveltuvin osin
kohdistaa vastaavien äännerajojen kanssa. Huomaa kuitenkin, että usein
esiintyy myös äänteitä, jotka ylittävät tavu- tai sanarajan ja joita
ei siksi voida perustellusti sitoa vain yhteen tavu- tai saneyksikköön
(esim. suomen kielen geminaatta tai sanojen rajalla esiintyvä vokaaliäänne,
johon edellinen sana loppuu ja jolla seuraava sana saumattomasti alkaa).
\subsection*{Kuvauksen valinta}
Ensisijaisesti kuulonvaraisin, mutta osittain akustisin kriteerein
valitaan kyseistä äännettä kuvaava symboli ja tarkkeet kansainvälisen
foneettisen aakkoston (IPA, \citealp{IPAHandbook}) käyttämien foneettisten
piirteiden mukaisesti.
Sama äänne voidaan kuvata foneettisesti joko ASCII-muotoisena (Worldbet-
ja X-SAMPA-aakkostot) tai mahdollisesti IPA-kirjasimella, mikäli käytettävä
annotointiohjelma sen sallii. ASCII-muotoisia aakkostoja tulisi suosia,
koska ne ovat koneluettavia ja koska niiden siirto järjestelmästä
toiseen aiheuttaa vähiten muunnosongelmia. Jos annotaatioista halutaan
myöhemmin luoda esitysgrafiikkaa, ASCII-muodossa kuvatut äänteet voidaan
muuntaa IPA-kirjasimelle. Worldbet-aakkoston merkit on kuvattu liitteessä
\ref{sec:Worldbet-symbolit}.
Pyri löytämään äännettä parhaiten kuvaava foneettinen perussymboli.
Lisää tämän jälkeen tarvittavat tarkemerkit. Jokaiselle äännesegmentille
saa antaa vain yhden foneettisen perussymbolin tarkkeineen. Jos tunnet
tarvitsevasi useamman perussymbolin, rajaa jokaiselle oma segmenttinsä.
Foneettisen transkription pitäisi kuvata mahdollisimman tarkasti äänteestä
syntyvää kuulohavaintoa. Pyri siis välttämään tietoista tai tiedostamatonta
tukeutumista esimerkiksi foneemiseen kuvaukseen. Kun mietit, mikä
transkriptio ts. nimike äänteelle sopisi, ajattele ääntöväylän asentoa
ja sitä, mihin suuntiin artikulaatioelimet ovat matkalla. Tämä voi
helpottaa epäselvien äänteiden nimikointia.
\section{\label{sec:VoiceQuality-aanenlaatu}VoiceQuality\index{VoiceQuality}
\--- äänenlaatu\index{äänenlaatu}}
\subsection*{Määritelmä ja käyttötarkoitus}
Äänenlaatukerrokseen merkitään puhujan äänenlaadun muutokset, esim.
kuiskaus/ soinnittomuus, narina tai henkäyssointi. Modaaliääntä (\char`\"{}tavallista
äänenlaatua\char`\"{}) ei tarvitse merkitä erikseen --- jos äänenlaatukerroksessa
ei ole tietyllä ajanhetkellä merkintää, se tarkoittaa, että puhe on
normaalisti soinnillista tai soinnitonta sen mukaan, mikä äänne (sll/ston)
foonitasolle on ko. ajanhetken kohdalle merkitty (ks. kuva \ref{fig:aanenlaatu_1}).
%
\begin{figure}
\begin{center}\includegraphics[%
scale=0.9]{/home/lennes/annotation_guide/jpgfigs/VQ_1.jpg}\end{center}
\caption{\label{fig:aanenlaatu_1}Kuvassa alimpana näkyy nimikointikerros,
johon on merkitty äänenlaatu. Kysymysmerkki \textbf{?} tarkoittaa
narisevaa ääntä, \textbf{Hv} henkäyssointia ja \textbf{0} soinnitonta
äänenlaatua eli kuiskausta. Näytteen alussa olevat soinnilliset osat
on tuotettu tavallisella ns. modaalifonaatiolla. Puhunnoksen lopussa
esiintyvä soinnittomuus on suomessa ja monissa muissakin kielissä
tavallinen ilmiö. Näytteessä on äännetty sanat \emph{minkäänlaisia
perusteita} lauseessa \emph{siihen taas poliisi ei nähnyt minkäänlaisia
perusteita}. Narinaääni alkaa sanan \emph{minkäänlaisia} loppupuoliskolla
ja puhujan ääni muuttuu soinnittomaksi \emph{perusteita}-sanan {[}s{]}-äänteestä
alkaen.}
\end{figure}
Äänenlaatuilmiöiden luokittelu on vaikeaa, sillä äänenlaatua kuvaavat,
usein impressionistiset termit ymmärretään eri tavoin. Tutkimuksissa
onkin todettu, että ihmiset kykenevät tunnistamaan melko johdonmukaisesti
lähinnä jonkinlaisen narinaäänen \cite{Gerratt01}. Siksi tässäkään
oppaassa ei ole valmiiksi määritelty kovin monia äänenlaatutyyppejä.
Oikeastaan äänenlaadun tarkka tutkiminen vaatisikin tarkkoja fysiologisia
ja akustisia mittauksia, joita annotoija ei käytännössä voi soveltaa
jo tallennettuun puhesignaaliin.
\subsection*{Äänenlaatuyksiköiden riippuvuudet muista yksiköistä}
Äänenlaatu ei välttämättä ole riippuvainen mistään muusta yksiköstä
vaan äänenlaatu voi ainakin teoriassa muuttua hyvinkin hienojakoisesti
vaikkapa keskellä äänneyksikköä. Tästä syystä eri äänenlaatukerrokset
voidaan periaatteessa nimikoida ilman muita annotaatiokerroksia. Käytännössä
äänenlaadun annotointi on kuitenkin helpompaa, jos aineistosta on
tarjolla vaikkapa puhunnoskerros litteraatteineen.
\subsection{\label{sub:Whisper-kuiskaus}Whisper\index{Whisper} \--- kuiskaus\index{kuiskaus}}
\subsubsection*{Määritelmä ja käyttötarkoitus}
Kuiskausääni on useiden äänteiden yli jatkuvaa soinnitonta puhetta,
jossa ei ole nähtävissä yksittäisiä äänihuuliperiodeja. Yksikköä voidaan
kuitenkin käyttää myös, jos vain yksi äänne on soinniton (esim. puhunnoksenloppuinen
vokaali), mikäli soinnittomuutta ei haluta tai voida kuvata soinnittomuuden
tarkemerkillä äännekerroksen (\ref{sub:Phone-fooni-aanne}) vastaavassa
yksikössä.
\subsubsection*{Paikantaminen ja rajaaminen}
Kuiskaukseksi tai soinnittomalla äänenlaadulla tuotetuksi merkitään
sellainen puheen osa, jossa yksi tai useampi äänne on odotusten vastaisesti
soinniton. Kuiskaus voi alkaa tai päättyä myös keskellä äännettä.
Esimerkiksi vokaalin alkuosa voi olla soinnillinen ja loppuosa soinniton.
Tämä on yleistä etenkin puhunnoksen lopussa esiintyvillä vokaaleilla.
\subsubsection*{Kuvauksen valinta}
Puh-editorissa kuiskausyksikölle ei merkitä erillistä kuvausta. Jos
nimikoidaan esimerkiksi Praat-ohjelmalla, tulisi kuiskattu jakso merkitä
soinnittomuuden merkillä \emph{0}.
\subsection{\label{sub:BreathyVoice-henkayssointi}BreathyVoice\index{BreathyVoice}
\--- henkäyssointi\index{henkäyssointi}}
\subsubsection*{Määritelmä ja käyttötarkoitus}
Henkäyssoinnillinen äänenlaatu. Osittain tai heikosti soinnillinen,
puoliksi kuiskaava äänenlaatu, jossa on mukana hälyä.
\subsubsection*{Paikantaminen ja rajaaminen}
Henkäyssointia esiintyy usein esim. soinnittomien frikatiiviäänteiden
vieressä, puhunnosten lopussa ja aivan narinaäänen vieressä. Puhe
kuulostaa h-väritteiseltä, muttei ole kuitenkaan täydellistä kuiskausta
vaan sisältää heikkoa sointia. Spektrogrammissa voidaan mahdollisesti
erottaa jonkinlaista hälyä, puheen kokonaisenergia on vähäisempi ja
aaltomuodosta katsottuna myös amplitudi on usein ympäristöä pienempi.
\subsubsection*{Kuvauksen valinta}
Puh-editorissa henkäyssointiyksikölle ei merkitä erillistä kuvausta.
Jos nimikoidaan esimerkiksi Praat-ohjelmalla, tulisi henkäyssoinnillinen
jakso merkitä henkäyssoinnin Worldbet-merkillä \emph{Hv}.
\subsection{\label{sub:CreakyVoice-narinaaani}CreakyVoice\index{CreakyVoice}
\--- narinaääni\index{narinaääni}}
\subsubsection*{Määritelmä ja käyttötarkoitus}
Nariseva äänenlaatu. Puhujan tuottamaa sointia, jonka äänihuuliperiodit
ovat normaalia pitempiä ja/tai epäsäännöllisiä. Narinaa esiintyy usein
erilaisten prosodisten rajakohtien yhteydessä, ja joillakin puhujilla
myös laajemmin. On olemassa erilaisia narisevia äänenlaatuja, mutta
tämä yksikkö kuvaa niitä yhteisesti.
\subsubsection*{Paikantaminen ja rajaaminen}
Aaltomuodossa soinnillisten äänteiden aikana näkyvät periodit ovat
epäsäännöllisiä ja/tai normaalia pitempiä. Joskus narinan aaltomuodossa
erottuu kahden hieman erilaisen periodin vuorottelua (tätä kutsutaan
diplofoniaksi).
\subsubsection*{Kuvauksen valinta}
Puh-editorissa narinayksikölle ei merkitä erillistä kuvausta. Jos
nimikoidaan esimerkiksi Praat-ohjelmalla, tulisi nariseva jakso merkitä
narinan/glottalisaation Worldbet-merkillä \emph{?}.
Jos halutaan erottaa useampia narinatyyppejä, tästä yksiköstä on mahdollista
Puh-editorilla periyttää aliyksikkö, jolle sitten määritellään uusia
ominaisuuksia (esim. ominaisuus creakType, jolla on joukko haluttuja
arvoja, esim. 1 \-- määrittelemätön, 2 \-- puristeinen ääni, 3 \--
diplofonia, 4 \-- ''vantaalaisnarina'' tms.)
\subsection{\label{sub:FalsettoVoice-falsettiaani}FalsettoVoice\index{FalsettoVoice}
\--- falsettiääni\index{falsettiääni}}