Rodzaje syntezy mowy

Formantowa synteza mowy generuje najgorszą jakość mowy. Model tego syntezatora sprowadza się do zaprojektowania odpowiednich filtrów cyfrowych generujących dźwięk o charakterystycznych dla głosek częstotliwościach. Na przykład samogłoskę możemy wygenerować przepuszczając sygnał przez odpowiedni filtr, który generuje odpowiedniej częstotliwości sygnał. Sygnał ten odzwierciedla charakterystyczne formanty głoski. Generowanie odpowiednich głosek odbywa się wedle pewnych istniejących już reguł, np. autorstwa Dennisa Klatta. Omawiana synteza nazywana jest też syntezą 'by rule'.

Artykulacyjna synteza mowy

Innym rodzajem syntezy mowy, opartym również na generowaniu mowy za pomocą reguł jest model artykulacyjny. Do modelowania głoski służy około 60 parametrów. Model artykulacyjny schematem przypomina budowę ludzkiego toru głosowego, przy czym jego odpowiednikiem nie jest aplikacja, a analog elektromagnetyczny. Obecnie z uwagi na skomplikowaną budowę oraz liczne problemy związane z analogiem elektromagnetycznym synteza artykulacyjna ma znaczenie symboliczne i nie jest rozpowszechniona.

Konkatenacyjna synteza mowy

Obecnie najbardziej rozpowszechnioną metodą jest konkatenacyjna synteza mowy. Model tej syntezy mowy, rozwijany od lat 70, zyskał dużą popularność z uwagi na możliwość generowania bardzo naturalnej, dobrze brzmiącej i zrozumiałej mowy w prosty sposób. Pierwsze syntezatory generowały mowę słabej jakości, gdyż nie brzmiała naturalnie i nie była zbytnio zrozumiała. Postęp w dziedzinie technologii umożliwił uzyskanie lepszych efektów. Synteza mowy konkatenacyjnej generuje mowę poprzez sklejanie ze sobą elementów akustycznych powstałych z naturalnej mowy (fony, difony, trifony, sylaby). Dużą zaletą tego rodzaju syntezy jest niewielki rozmiar bazy danych, z uwagi na mała objętość jednostek akustycznych. Im mniejszy rozmiar bazy, tym szybciej będzie syntetyzowana mowa oraz wymagania sprzętowe będą mniejsze.Jest oczywiste, że konkatenacja mowy oparta na słowach jest bardzo niepraktyczna z powodu ilości wyrazów, jakie należy rozpatrzyć. Poza tym nagrywanie korpusu słów nie do końca ma sens, ponieważ brakuje tu przejścia naturalnego pomiędzy jednym a drugim słowem. Konkatenacja sylab daje dość dobre rezultaty, jednak z uwagi na ich ilość (np. w języku angielskim, 160000 podczas gdy jest tylko 40 fonemów) też wydaje się być nie najlepszym rozwiązaniem. Bardzo często używana jest konkatenacja difonów, która umożliwia dobrą jakość syntezy mowy przy wykorzystaniu korpusu zawierającego około 1500 jednostek. Wydaje się to być zadaniem wartym realizacji.

Konkatenacyjna syntezy mowy posiada również swoje wady. Należą do nich:

  • Problem wyboru jednostek akustycznych
  • Konkatenacja jednostek nagranych w różnych kontekstach.
  • Modyfikacja prozodii, czyli problem intonacji i czasu trwania.
  • Problem kompresji nagranych segmentów.
  • Dziś syntezatory mowy konkatenacyjnej generują bardzo wysokiej jakości mowę. Dlatego stała się ona zainteresowaniem takich aplikacji jak serwisy telefoniczne, edukacja komputerowa czy też mówiące zabawki.

    Synteza korpusowa

    Stosunkowo nowym rozwiązaniem jest metoda korpusowa (unit selection). Jest to zmodyfikowana postać konkatenacyjnej syntezy mowy. Wyjaśnię to na przykładzie korpusu difonów. W korpusie każdy z difonów był reprezentowany tylko w jeden sposób. Natomiast metoda korpusowa zakłada, że korpus jest dużo większy, tak, że zawiera po kilka instancji danego difonu. W korpusie mogą występować również inne jednostki akustyczne np. sylaby i trifony oraz całe wyrazy. W korpusie takim jeden ten sam difon może wystąpić 10 lub nawet 100 razy. W celu wygenerowania mowy obliczana jest funkcja kosztu. Funkcja ta polega na obliczeniu które połączenie z wszystkich możliwych pozwoli uzyskać najlepszą jakość mowy. Na przykład system ma wygenerować następujące zdanie: 'Ala ma kota'. Zdanie to jest zostanie najprawdopodobniej wygenerowane tylko za pomocą całych wyrazów, ponieważ funkcja kosztu, w ten sposób zminimalizuje ilość błedów na sklejkach. Natomiast pojawia się pewien problem, kiedy chcemy wygenerować zdanie: 'Ala ma dużo kotów'. Okazuje, że w korpusie nie istnieje wyraz 'kotów'. Ale istnieją odpowiednie difony i trifony za pomocą, których można wygenerować ten wyraz. Zadaniem funkcji kosztu jest wyliczenie, w jaki sposób należy utworzyć wyraz i jakich użyć jednostek akustycznych by brzmiał on najbardziej naturalnie.

    Podsumowując, funkcja kosztu jest funkcją oszacowującą. Jej działanie sprowadza się do wyliczenia różnych możliwych sposobów wygenerowania danej wypowiedzi, przy użyciu różnych jednostek akustycznych znajdujących się w korpusie. Funkcja oszacowuje i porównuje zarazem, która wypowiedź będzie brzmiała najlepiej. Funkcja uwzględnia różne czasy trwania poszczególnych segmentów oraz ich intonację.

    Warto wspomnieć, że synteza korpusowa jest również zaimplementowana w bezpłatnym systemie Festival. Obecnie są prowadzone badania nad udoskonaleniem funkcji estymacji. Celem jest utworzenie takiej funkcji, która wybierze najbardziej zbliżoną do mowy ludzkiej sekwencję jednostek akustycznych. Praktycznie jedynym problemem jest rozmiar korpusu, który wynosi kilkaset MB oraz złożoność procesu obliczeniowego.

    Kolejnym ważnym aspektem przy realizacji konkatenacyjnej syntezy mowy jest wybór jednostek akustycznych. Wyróżniamy następujące jednostki akustyczne:

  • Głoski (fonemy)
  • Difony
  • Sekwencje fonemów
  • Półsylaby
  • Sylaby
  • Difon zaczyna się w drugiej połowie fonu i kończy w pierwszej połowie następnego fonu. Dużą zaletą difonu jest przejście tranzjentowe pomiędzy dwoma fonemami. Różnica między difonem a fonemem pod względem segmentacji oraz konkatencji jednostek jest więc taka, że czas trwania difonu jest dłuższy i jego granice łatwiej znaleźć niż w przypadku fonemu. Łączenie difonów w słowa następuje na części stabilnej jednostki, co wpływa na korzystne brzmienie. Dużą zaletą konkatenacyjnej syntezy mowy z zastosowaniem difonów jest mały nakład pamięci potrzebny do przeprowadzenia odpowiednich obliczeń. W pracy magisterskiej użyłem tej jednostki, ponieważ właśnie difon przy poprawnym przeprowadzeniu procesu segmentacji, daje dobrą jakość syntezy mowy, zdecydowanie lepszą niż fon. Wygenerowanie difonów jest niezwykle czasochłonne i wymaga dużego nakładu pracy, jednak jest to możliwe, czego najlepszym dowodem jest samodzielnie opracowana część praktyczna mojej pracy. Sekwencje fonemów są dowolnymi jednak dopuszczalnymi w obrębie danego języka. Podstawową sekwencją fonemów jest sylaba. Sylaba jest fonetyczno-fonologiczną jednostką słowa jak i jednym z bardziej spornych zagadnień w fonetyce. Według L.Roudeta sylaba jest odcinkiem mowy, na którego ośrodek przypadają: minimum ciśnienia powietrza w tchawicy, maksimum otwarcia narządów mowy oraz maksimum donośności . Na krańcach zaś odwrotnie: maksimum ciśnienia powietrza w tchawicy, maksimum zbliżenia narządów mowy oraz minimum donośności. Na sylabę nie wpływa sąsiedztwo głosek w otoczeniu, których się znajduje. Segmentacja sylab jest względnie łatwa, jednak wymaga ponad 150000 sylab, (w języku japońskim około kilkuset) celem uzyskania optymalnych podstaw dla syntezy mowy, co dla jednego magistranta wydaje się nie wykonalne.Baza była segmentowana ręcznie. Wymagania

    Wybór jednostki akustycznej do syntezy mowy ma miejsce na samym początku projektu. Drugim ważnym faktem jest uzmysłowienie sobie, jakie elementy muszą być spełnione by projekt zakończył się sukcesem. Generalnie, poniższe wnioski dotyczą przeprowadzenia nagrań z określonymi jednostkami akustycznymi. Chcąc otrzymać dobrą jakość syntezy mowy należy pamiętać o spełnieniu poniższych warunków:

    Podczas przeprowadzania nagrania, każdy wyraz z daną jednostką syntezy mowy musi być wymawiany z jednakową głośnością.

    Jednostki mowy powinny być wymawiane w sposób monotonny

    Artykulacja musi być naturalna i bardzo czysta

    Prędkość mówienia powinna być umiarkowana

    Korpus warto nagrać podczas jednej sesji

    Rekomendowane jest nagrywanie sygnału wysokiej jakości np. częstotliwość próbkowania conajmniej 20 kHz oraz 16 bit rozdzielczości. Zastosowanie systemów syntezy mowy

    Synteza mowy ma coraz większe zastosowanie i obejmuje coraz więcej dziedzin. Przede wszystkim należy wymienić tutaj edukacje w postaci wirtualnych uniwersytetów, liczne instytucje wirtualne, w których mowa nie stanowi języka naturalnego, lecz sztucznie generowany głos. Kolejną dziedziną zastosowania syntezy mowy jest telekomunikacja. Większość rozmów, około 70%, jakie przeprowadzamy dzwoniąc do różnych serwisów informacyjnych nie wymaga dużej interaktywności. Stąd też wynika duże zainteresowanie tą dziedziną. AT&T zbudowała kilka systemów, mających zastosowanie w telekomunikacji. Jednym z nich jest informowanie o danych personalnych dzwoniącego przed odebraniem połączenia. Inny system opierał się o technologie czytania elektronicznych listów przez telefon. Systemy te dają bardzo dobrą jakość syntezy mowy, dlatego znalazły zastosowania i są dosyć popularne. Mówiące książki i zabawki to kolejna dziedzina, w której można zastosować syntezę mowy. Synteza mowy ma zastosowanie przy kontrolowaniu urządzeń samochodowych takich jak klimatyzacja, radio, elektroniczna mapa. Niezbędna pomoc w postaci korzystania z Internetu podczas podróży oraz mówiący system nawigacyjny informacje o korkach drogowych czy też informacje o stanie poszczególnych urządzeń samochodu to tylko nieliczne zastosowanie tej technologii. Synteza mowy będzie ma również duże zastosowania w dziedzinie zasobów ludzkich. Dzięki syntezie mowy ludzie niewidomi mają dostęp do wiadomości tekstowych.

    Czasami informacja głosowa jest bardziej efektywna od informacji tekstowej. Szczególnie, jeśli myślimy o krótkiej informacji: alarmy, uwagi. Portale głosowe są tego najlepszym przykładem. Zadaniem portali głosowych jest symulowanie interakcji głosowej z użytkownikiem. Portale głosowe są wyposażone w wyrafinowane mechanizmy interakcji z użytkownikiem, których podstawą jest rozpoznawanie oraz konwersja tekstowej informacji pobranej z bazy danych do postaci dźwiękowej. Portal głosowy jest nie tylko wymyślnym systemem do prowadzenia konwersacji z komputerem, lecz przede wszystkim stanowi bazę danych, czyli zasób ważnych informacji dla potencjalnych klientów serwisu. Informacje te przechowywane są w postaci tekstowej na serwerach baz danych, skąd pobierane są przez skrypty, zlokalizowane na serwerach WWW, obsługujące zapytania SQL. Wyselekcjonowane wiadomości konwertowane są do postaci dźwiękowej przez przeglądarkę głosową i emitowane. Technologia IVP (Internet Voice Portal), mimo że jest jeszcze bardzo młoda, przeżywa w USA swój rozkwit. Pojawiło się szereg bogatych serwisów informacyjnych zarówno udostępniających własne zasoby, jak i korzystających z zasobów Internetu. Część z nich umożliwia także realizację podstawowej usługi internetowej, czyli dostępu do poczty elektronicznej. Portale te są powszechnie dostępne na terenie całych Stanów Zjednoczonych, a korzystanie z nich jest bezpłatne. W PJWSTK zostal stworzony pierwszy polski portal głosowy. Więcej informacji tutaj.