Talgervi

frá Wikipedia, ókeypis alfræðiorðabókinni
Fara í siglingar Fara í leit
Skema fyrir „Voder“ eftir Homer Dudley (1940)

Talgervi er tilbúin kynslóð mannræddrar röddar . A texti-í-tal kerfi (TTS) (eða lesa vél) breytir gangi texta inn hljóðeinangrun Talúttak.

Í grundvallaratriðum má greina tvær aðferðir við kynslóð talmerkja. Annars vegar er hægt að nota raddupptökur ( sýnishorn ) með svokallaðri merkimyndun . Á hinn bóginn er einnig hægt að mynda merkið alveg í tölvunni með svokallaðri lífeðlisfræðilegri (liðfærandi) líkanagerð. Þó að fyrstu kerfin byggðust á myndandi myndun, þá eru kerfin sem nú eru notuð í iðnaði aðallega byggð á merki.

Sérstakt vandamál fyrir talgervun er kynslóð náttúrulegrar tallags ( prosody ).

saga

Eftirmynd af „talavélinni“ eftir Wolfgang von Kempelen (2009)
Eftirmynd byggingarinnar eftir Hermann von Helmholtz (1865)
Sýning á „Voder“ árið 1939

Löngu áður en rafræn merkjavinnsla var fundin, reyndu vísindamenn að smíða vélar sem gætu framkallað tal manna. Gerbert von Aurillac (1003) á heiðurinn af „talhöfði “ úr bronsi, þar sem greint var frá því að hann gæti sagt „já“ og „nei“. Búnaður Albertus Magnus (1198–1280) og Roger Bacon (1214–1294) er líklegri til að eiga heima á sviði þjóðsagna.

Árið 1779 smíðaði þýski vísindamaðurinn Christian Kratzenstein , sem starfaði í Kaupmannahöfn, „ talorgel “ byggt á keppni sem haldin var í Pétursborgarakademíunni, sem gat myndað fimm langa sérhljóða (a, e, i, o og u ) með því að nota lausar sveiflukenndar pípur með raddböndum manna. Wolfgang von Kempelen þróað tala vél eins snemma og 1760, þar sem hann kynnti 1791 í riti sínu "styrktarsjóður mannlegs máls ásamt lýsingu á tal vél þess." Eins og Kratzenstein var þessi myndun byggð á belg sem lungnaígildi, en raunveruleg örvun var miklu nær líffærafræði eins, sláandi tungutöluflautu. Þetta gerði nokkra sérhljóða og plosives mögulega. Að auki væri hægt að tákna fjölda æðivísa með ýmsum aðferðum. Leðurrör var fest við raddböndin, sem hægt var að afmynda með annarri hendi og herma þannig eftir breytilegri rúmfræði og ómunhegðun raddboga. Von Kempelen skrifaði:

„Fáðu þér aðdáunarverða hæfileika til að spila á þremur vikum, sérstaklega ef þú skiptir yfir á latínu, frönsku eða ítölsku, því þýska er miklu erfiðari [vegna tíðra samstæða hnífa] .“

Charles Wheatstone byggt tala vél byggt á þessari hönnun árið 1837, eftirmynd má finna í Deutsches Museum . Árið 1857 smíðaði Joseph Faber Euphonia , sem einnig fylgir þessari meginreglu.

Í lok 19. aldar þróaðist áhugi fjarri æxlun manntaltalíffæra (erfðafræðilegri talmyndun) til líkingar á hljóðvistarrými (erfðafræðileg talgervi). Til dæmis, Hermann von Helmholtz myndaði sérhljóða í fyrsta skipti með því að stilla gaffla, sem voru stilltir á ómunartíðni raddskipunarinnar í ákveðnum sérhljóðarstöðum. Þessar ómunstíðnir eru kallaðar formants . Talgervi með því að sameina formants var tæknilegur almennur straumur fram að miðjum tíunda áratugnum.

Vocoder , lyklaborðsstýrður rafrænn talgervi sem sagður var greinilega skiljanlegur, var þróaður hjá Bell Labs á þriðja áratugnum. Homer Dudley endurbætti þessa vél í Voder sem var kynnt á heimssýningunni 1939 . Voder notaði rafsveiflur til að búa til mótandi tíðnir.

Fyrstu tölvutæku talgervikerfin voru þróuð seint á fimmta áratugnum og fyrsta heila texta-til-talkerfinu lauk árið 1968. Eðlisfræðingurinn John Larry Kelly, yngri, þróaði talgervi með IBM 704 í Bell Labs árið 1961 og lét hann syngja lagið Daisy Bell . Leikstjórinn Stanley Kubrick var svo hrifinn af því að hann innlimaði það í 2001: A Space Odyssey .

til staðar

Þótt snemma rafræn talgervlar hljómuðu enn mjög vélrænt og stundum voru erfiðir í skilningi, hafa þeir frá því um árþúsundamótin náð gæðum sem stundum er erfitt að aðgreina frá ræðumönnum manna. Þetta stafar aðallega af því að tæknin hefur snúið sér frá raunverulegri myndun talmerkisins og einbeitir sér að því að samræma hljóðræna hluti sem best. [1] [2] [3]

myndun

Talgerving gerir ráð fyrir greiningu á mannamáli, að því er varðar hljóðfæri , en einnig forsögu, því setning getur haft mismunandi merkingu með setningunni laginu einni saman.

Hvað varðar myndunarferlið sjálft, þá eru til mismunandi aðferðir. Allar aðferðirnar eiga það sameiginlegt að nota gagnagrunn þar sem einkennandi upplýsingar um málhluta eru geymdar. Hlutar úr þessari skrá eru tengdir viðeigandi tjáningu. Hægt er að flokka talgervikerfi út frá birgðum gagnagrunnsins og þá sérstaklega aðferðinni við að tengja. Merkjasamsetningin hefur tilhneigingu til að vera einfaldari því stærri sem gagnagrunnurinn er, þar sem hann inniheldur þá þegar þætti sem eru nær tilætluðum tjáningu og minni merkisvinnsla er nauðsynleg. Af sömu ástæðu er eðlilegri hljóðmyndun venjulega möguleg með stórum gagnagrunni.

Erfiðleikar við myndun liggja í því að sameina birgðaþætti. Þar sem þetta kemur frá mismunandi framburði, þá eru þeir einnig mismunandi að magni, grundvallartíðni og stöðu formants. Við forvinnslu gagnagrunnsins eða tengingu birgðaþátta verður að jafna þessa mismun eins vel og mögulegt er (eðlilegt) til að skerða ekki gæði myndunarinnar.

Einingarval

The Unit Selection skilar bestu gæðum, sérstaklega með takmarkað lén . Synthesis notar stóran tungumálagagnagrunn þar sem hver skráð orð er skipt í nokkrar eða allar eftirfarandi einingar:

Þessir hlutar eru geymdir með möppu með fjölda hljóðeinangrandi og hljóðfræðilegra eiginleika eins og grundvallartíðni ferils, lengd eða nágranna.

Við myndunina eru sérstök leitarreiknirit , vegin ákvarðatré notuð til að ákvarða fjölda stærsta hluta sem unnt er, sem kemst næst því orðtaki sem á að mynda með tilliti til þessara eiginleika. Þar sem þessi röð er gefin út með lítilli eða engri merkjavinnslu, þá er náttúruleiki talaðs máls varðveittur svo framarlega sem fáir tengingarpunktar eru nauðsynlegir.

Díófónmyndun

Tilraunir sem gerðar voru í upphafi 21. aldar hafa sýnt að rétt endurgerð hljóðbreytinga er nauðsynleg fyrir skiljanleika talgervils. Gagnagrunnur með um 2500 færslum er notaður til að geyma allar hljóðskipti. Tímabil kyrrstöðu hlutans, hljóðfæri miðju hljóðfæra, upp að kyrrstöðu hluta eftirfarandi hljóðfæra er geymt þar. Til myndunar eru upplýsingarnar settar saman ( samtengdar ) í samræmi við það.

Frekari Samhliða articulation áhrif , sem stuðla mikið að náttúrunni ræðu, er hægt að taka tillit til í víðtækari gagnagrunna. Eitt dæmi er Hadifix , lbsilben the Ha, síminn Di og Suf fix e inniheldur.

Merki kynslóð

Merki kynslóð endurskapar viðkomandi hluti úr gagnagrunninum með tilgreindum grunn tíðni ferli. Þessi tjáning á grundvallartíðni ferli er hægt að gera á mismunandi vegu þar sem eftirfarandi aðferðir eru mismunandi.

Heimildarsía líkan

Í myndgerðum sem nota aðskilnað frá uppsprettu-síu er merkjagjafi með reglubundinni bylgjuformi notaður. Tímalengd þeirra er stillt til að passa við grundvallartíðni orðsins sem á að mynda. Það fer eftir gerð hljóðfæra, viðbótar hávaða er bætt við þessa örvun. Lokasíun vinnur úr hljóðeinkennandi litrófunum. Kosturinn við þennan flokk aðferða er einföld grunn tíðnisstýring uppsprettunnar. Ókostur stafar af síuþáttunum sem eru geymdir í gagnagrunninum, sem erfitt er að ákvarða út frá talsýni. Það fer eftir tegund síu eða undirliggjandi sjónarmiði að tala, þar er gerður greinarmunur á eftirfarandi verklagsreglum:

Myndandi myndun

Formleg myndun byggist á þeirri athugun að til að greina sérhljóða nægir að endurskapa fyrstu tvö efnin nákvæmlega. Hvert formant er líkt eftir bandpassi , skautandi síu af 2. stigi, sem hægt er að stjórna með tilliti til miðtíðni og gæða . Hægt er að útfæra tiltölulega einfalda myndun með hliðstæðum rafrænum hringrásum.

Hljóðlíkan

Hljóðlíkanið endurskapar alla ómunareiginleika raddbandsins með viðeigandi síu. Í þessu skyni er oft litið á raddbeitinguna á einfaldan hátt sem rör með breytilegum þverskurði, þar sem þverlægar stillingar eru vanræktar, þar sem hliðarstærð raddganga er lítil. Þverskurðabreytingarnar eru nánar nálgaðar með jafnstórum þversniðstökkum. Síutegund sem er oft valin er krossatengdu keðjusían , þar sem beint samband er milli þversniðs og síustuðuls. [4]

Þessar síur eru náskyldar Linear Predictive Coding (LPC), sem einnig er notað til talgervils. LPC tekur einnig tillit til allra ómunareiginleika, en það er ekkert beint samband milli síustuðuls og þverskurðar lögunar raddganga.

Articulatory nýmyndun

Í samanburði við hljóðeinangrunarlíkanið, myndar liðgerðarmyndunin samband milli stöðu liðgreinaranna og þverskurðar lögunar raddleiðarinnar sem leiðir af sér. Til að líkja eftir ómunseinkennum, auk tímadreifra þverbindingakeðjusía, eru notaðar lausnir á samfelldum Horn jöfnu, en þaðan er tímamerkið fengið með Fourier umbreytingu .

Skörun Bæta við

Pitch Synchronous Overlap Add, skammstafað til PSOLA, er myndunarferli þar sem upptökur af talmerkinu eru í gagnagrunninum. Ef merki eru regluleg eru þeim veittar upplýsingar um grunntíðni (tónhæð) og upphaf hvers tímabils er merkt. Við myndun eru þessi tímabil skorin út með tilteknu umhverfi með því að nota gluggaaðgerð og bætt við merkið sem á að búa til á viðeigandi stað: Það fer eftir því hvort æskileg grundvallartíðni er hærri eða lægri en gagnagrunnsfærslunnar, þau eru samsvarandi þéttari eða minna þétt en í frumritinu sett saman. Til að stilla lengd hljóðsins má sleppa tímabilum eða gefa þau út tvisvar. Þessi aðferð er einnig þekkt sem TD-PSOLA eða PSOLA-TD (TM), þar sem TD stendur fyrir Time Domain og leggur áherslu á að aðferðirnar virka á tímaléninu.

Frekari þróun er Multi Band Resynthesis OverLap Add ferli, eða MBROLA í stuttu máli. Hér eru hlutar í gagnagrunninum fyrirfram unnnir í samræmda grunntíðni og fasastaða harmonikkanna er eðlileg. Við myndun breytinga frá einum hluta til annars leiðir þetta til minna skynjanlegra truflana og náð raddgæði eru meiri.

Þessi myndunarferli tengjast kornmyndun , sem er notað við hljóðmyndun og firringu í rafrænni tónlistarframleiðslu.

Parametric talmyndun frá falnum Markov módelum (HMM) og / eða stochastic Markov myndritum (SMG)

Parametric talgervi er hópur aðferða sem byggjast á stochastic módelum. Þessar gerðir eru annaðhvort falin Markov módel (HMM) , stochastic Markov línurit (SMG), eða, nýlega, blanda af þessu tvennu. Grundvallarreglan er sú að táknræn hljóðröðarröð sem fengin er við forvinnslu texta keyrir í gegnum tölfræðilega líkanagerð með því að brjóta þau fyrst niður í hluti og úthluta síðan tilteknu líkani úr fyrirliggjandi gagnagrunni til hvers þessara hluta. Hverri þessara fyrirmynda er aftur á móti lýst með röð breytum og að lokum tengd við aðrar gerðir. Vinnslan að gervi talmerki, sem byggist á nefndum breytum, lýkur síðan mynduninni. Þegar um er að ræða sveigjanlegri, stochastic Markov línurit er hægt að fínstilla slíkt líkan að því leyti sem það er hægt að þjálfa það fyrirfram og með því að bæta dæmum um náttúrulegt mál við ákveðna grunnnáttúruleika. Tölfræðilegar aðferðir af þessu tagi eiga uppruna sinn á gagnstæðu sviði talgreiningar og eru hvattir til af þekkingu um tengsl líkinda á tiltekinni talaðri röð og áætlaðrar talhraða sem búast má við eða forsögu þess. [5] [6] [7]

Möguleg notkun texta-til-ræðu hugbúnaðar

Notkun hugbúnaðar til að búa til tal þarf ekki að vera markmið í sjálfu sér. Fólk með sjónskerðingu - t.d. B. Drer eða aldurstengd macula hrörnun - notaðu TTS hugbúnaðarlausnir til að láta lesa texta upphátt beint á skjáinn. Blint fólk getur stjórnað tölvu með því að nota skjálesarahugbúnað og fá stjórnunarþætti og textaefni. En fyrirlesarar nota einnig talgervi til að taka upp fyrirlestra. Höfundar nota einnig TTS hugbúnað til að athuga texta sem þeir hafa skrifað fyrir villur og skiljanleika.

Annað forritssvið er í formi hugbúnaðar sem gerir kleift að búa til MP3 skrár . Þetta þýðir að hægt er að nota hugbúnað til að búa til tal til að búa til einfalt podcast eða hljóðblogg . Reynslan hefur sýnt að framleiðsla á hlaðvarpi eða hljóðbloggum getur verið mjög tímafrekt.

Þegar unnið er með bandarískan hugbúnað skal tekið fram að raddirnar sem eru í boði eru af mismunandi gæðum. Enskar raddir eru af meiri gæðum en þýska. Ekki er mælt með afriti 1: 1 af textunum í TTS hugbúnaði; eftirvinnsla er nauðsynleg í öllum tilvikum. Það snýst ekki aðeins um að skipta út skammstöfunum, heldur einnig að setja inn greinarmerki - jafnvel þótt þau séu málfræðilega röng - getur hjálpað til við að hafa áhrif á setningahraða. Þýskar „þýðingar“ með anglicisma eru almennt óyfirstíganlegt vandamál fyrir talgervingu.

Tíð forrit eru tilkynningar í síma- og leiðsögukerfum.

Hugbúnaður til að búa til tal

Amiga SoftVoice talgervi
  • AnalogX SayIt
  • Aristech
  • Hljóðbúnaður
  • Balabolka (ókeypis forrit, 26 tungumál, SAPI4 og SAPI5 )
  • BOSS, þróað við Institute for Communication Studies við háskólann í Bonn
  • Browsealoud frá textHELP
  • Cepstral texta-til-ræðu
  • CereProc
  • DeskBot
  • espeak (opinn uppspretta, mörg tungumál, SAPI5)
  • hátíð
  • Festvox
  • FreeTTS (Open Source)
  • GhostReader
  • Gnuspeech
  • Infovox
  • IVONA texta-til-ræðu
  • Linguatec raddlesari 15
  • Logox bútalesari
  • Loquendo TTS
  • MacinTalk og narrator.device frá SoftVoice
  • MARY Text-to-Speech þróað af DFKI Language Technology Lab
  • MBROLA
  • Modulate [8] Hugbúnaður til að breyta rödd, notar Generative Adversarial Networks [9]
  • Mozilla TTS [10]
  • NaturalReader frá NaturalSoft
  • OnScreenVoices frá tom weber hugbúnaði
  • ReadSpeaker: Að lesa vefsíður og podcast
  • Realspeak frá Nuance (áður ScanSoft), nú Kobaspeech 3
  • SAM frá Don't Ask Software [11]
  • Talhugmynd
  • Talvél
  • SVOX
  • Synte 2
  • Synte 3
  • SYNVO
  • Tacotron (Google) [12]
  • Texti upphátt MP3
  • Toshiba ToSpeak
  • TTS vélmenni
  • myndun virsyn CANTOR sérhljóða
  • Raunveruleg rödd

Vélbúnaður fyrir ræðugerð

  • Votrax
    • SC-01A (hliðstætt formant)
    • SC-02 / SSI-263 / "Arctic 263"
  • Almennur mælitæki
    • SP0250
    • SP0256-AL2 "Orator" (CTS256A-AL2)
    • SP0264
    • SP1000
  • Mullard MEA8000 [13]
  • National Semiconductor DT1050 Digitalker (Mozer)
  • Silicon Systems SSI 263 (hliðstætt formant)
  • Texas Instruments
  • Oki hálfleiðari
    • MSM5205
    • MSM5218RS (ADPCM)
  • Toshiba T6721A C²MOS rödd samstillir LSI

Sjá einnig

bókmenntir

Vefsíðutenglar

Wiktionary: Talmyndun - skýringar á merkingum, uppruna orða, samheiti, þýðingar
Commons : Talgervi - safn mynda, myndbanda og hljóðskrár

saga

Kerfi

Vefviðmót

Neðanmálsgreinar

  1. Dennis Klatt's History of Speech Synthesis ( Minningo of the original from 4. July, 2006 in the Internet Archive ) Upplýsingar: skjalasafnstengillinn var settur inn sjálfkrafa og hefur ekki enn verið athugaður. Vinsamlegast athugaðu upprunalega og geymsluhlekkinn í samræmi við leiðbeiningarnar og fjarlægðu síðan þessa tilkynningu. @ 1 @ 2 Sniðmát: Webachiv / IABot / www.cs.indiana.edu
  2. Sami Lemmetty: Saga og þróun talgerðar. Í: Endurskoðun á ræðugervitækni. Tækniháskóli HELSINKI, 1. júní 1999, opnaði 14. mars 2019 .
  3. Arne Hoxbergen: Saga talgervils byggð á nokkrum völdum dæmum (PDF; 490 kB). Berlín 2005.
  4. Karl Schnell: túplíkön af talgöngunum. Frankfurt 2003.
  5. http://www.patent-de.com/20010927/DE10040991C1.html
  6. Síða er ekki lengur tiltæk , leit í vefskjalasafni: @ 1 @ 2 Sniðmát: Toter Link / www.ims.uni-stuttgart.de Diplomarbeit_Breitenbuecher
  7. Afrit í geymslu ( minning af frumritinu frá 21. júlí 2014 í netsafninu ) Upplýsingar: skjalasafnstengillinn var settur inn sjálfkrafa og hefur ekki enn verið athugaður. Vinsamlegast athugaðu upprunalega og geymsluhlekkinn í samræmi við leiðbeiningarnar og fjarlægðu síðan þessa tilkynningu. @ 1 @ 2 Sniðmát: Webachiv / IABot / www.ias.et.tu-dresden.de
  8. Modulate: Opnaðu rödd þína. Sótt 14. mars 2019 .
  9. Tækniúttekt: Talaðu eins og Barack Obama. 14. mars 2019, opnaður 14. mars 2019 .
  10. mozilla / TTS. Mozilla, 7. febrúar 2021, opnaði 7. febrúar 2021 .
  11. https://simulationcorner.net/index.php?page=sam
  12. Sebastian Grüner: Tacotron 2 : Talmyndun Google nær næstum mannlegum gæðum - Golem.de. Í: golem.de. 21. desember 2017. Sótt 14. mars 2019 .
  13. http://vesta.homelinux.free.fr/wiki/le_synthetiseur_vocal_mea_8000.html
  14. Efnisyfirlit (pdf)