Äänen kloonaus

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 28. kesäkuuta 2016 tarkistetusta versiosta . tarkastukset vaativat 25 muokkausta .

Äänen kloonaus ( englanniksi voice change, voice cloning ) on ohjelmiston ja laitteiston avulla tuotettu tekniikka, joka toteuttaa muutoksen ihmisen äänessä sekä reaaliajassa että viivästetyssä erätilassa.

Tekniikka mahdollistaa henkilön puheen henkilökohtaisten ominaisuuksien simuloinnin melko täydellisesti alkuperäisen kanssa, jota kutsutaan "kopiokohdeksi".

General Technology Assessment

Tällä hetkellä puheentunnistusjärjestelmät ovat suhteellisen hyvin kehittyneitä . Niitä käytetään erilaisten kodinkoneiden puheohjauksessa (puhelimissa, auton audiojärjestelmissä ja pesukoneissa). Käänteinen prosessi - sanojen erottaminen äänisignaalista ja puheen syntetisointi - kohtaa useita vaikeuksia.

Ohjelmistotuotteet

Ohjelmien katsotaan kuuluvan "äänenvaihtoohjelmiston" tai "äänenvaihtajan" luokkaan:

Morphvox
äänen vaihtaja
Äänen anonymisoija

Myös SDK-paketit:

Voice Cloning Toolkit Festivalille ja HTS:lle (Mac) Arkistoitu 28. toukokuuta 2011 Wayback Machinessa - tutkimuspaketti puheteknologian tutkimuskeskuksesta ja Junichi Yamagishi Edinburghin yliopistosta

Palvelu verkkosivuilla ja puhelimitse

Aiemmin jotkut yritykset kaupallisesti soittajan äänenvaihtopalvelu puhelimitse reaaliajassa. Tämä tehtiin seuraavasti:

Aikaisemmin tilaaja (asiakas) tilasi verkkosivustolla takaisinsoiton puhelimeensa ja puhelun "kopiokohteen" puhelimeen ja järjestelmälle toimitettiin näytteitä asiakkaan ja "kopiokohteen" äänistä;
Sitten tilaaja tilasi puhelun takaisin puhelimeensa ja häntä kiinnostavan tilaajan puhelimeen. Järjestelmä yhdisti tilaajan, hänen signaalinsa kulki yrityksen palvelimen kautta, jossa äänen taajuusominaisuudet ja sointiväri muuttuivat henkilön äänen parametreiksi - "kopiokohde". Tilaaja kuuli asiakkaan sanat, mutta hänelle nämä sanat (oletettavasti) kuulostivat henkilön ääneltä - "kopioi kohde".

Tekniikan kuvaus

Puheen kloonauksen tekniikka reaaliaikaisessa puhelinkeskustelussa perustuu perustuen tunnettuihin algoritmeihin äänikantoaaltosignaalin matemaattista käsittelyä varten [1] [2, 4]. Samalla he käyttävätDFT -menetelmät diskreetin signaalin taajuuksien analysointiin (käyttämällä erityistä Fourier-muunnosmenetelmää ), joka on saatu digitoimalla analoginen puhelinsignaali kapeakaistaisella puhekoodekilla G.729 [2] [5, 6, 7, 8 ]. Muunnetun puheen synteesi kantoaaltosignaalin, eli tuloksena olevan "kloonatun äänen" perusteella toteuttaa mahdollisuuden säilyttää mahdollisimman paljon kopioidun alkuperäisen äänen henkilökohtaiset akustiset ominaisuudet: ääntämisen foneettiset ominaisuudet, aksentti ja jopa artefaktit, kuten esim. änkytys [3] [9]. Näin ollen kaiuttimen keinotekoisuutta on mahdotonta tunnistaa edes alkuperäisen puhelinsignaalin erityisellä käsittelyllä ja matemaattisella analyysillä. Puheen kloonaustekniikan laiton käyttö on ehdottomasti kielletty tätä palvelua tarjoavan verkkopalvelun erityisen suojausohjelman mukaisesti. Kuvattu puheen kloonaustekniikka puhelinverkoissa oli tekijöiden mukaan viimeisin tuote, jolla ei ollut aiemmin analogeja.

Edellinen taso

Nykyiset järjestelmät konepuheen luomiseksi ovat osoittautuneet hyvin tietyissä teknisissä markkinarakoissa: autonavigointijärjestelmissä, rannekelloissa, elektronisissa "luku"-käännössanakirjoissa ja niin edelleen. Tällaisissa järjestelmissä ei ole asetettu tehtävää jäljitellä tietyn henkilön ääntä, joten tuloksena oleva konepuhe ei myöskään ole personoitua , ja se on helposti tunnistettavissa sen selvän keinotekoisen alkuperän vuoksi.

Aikaisemmin yritykset syntetisoida tietyn henkilön puhe perustuivat periaatteeseen luoda puhekloonin "ydin", joka sisältää täydellisen joukon akustisia, foneettisia ja prosodisia ominaisuuksia - yksittäisiä puheominaisuuksia. Tämä vaati melko yksityiskohtaisen henkilökohtaisen tietokannan "kopioidusta" äänestä. Henkilö, jonka ääni piti kopioida, joutui lukemaan pitkään valmisteltua tekstiä, joka oli erityisesti suunniteltu ja sisältää suuren määrän foneemia maksimoidakseen puhujan puheen piirteet.

Tämä aiheutti tiettyjä vaikeuksia, koska tiedetään, että tavallinen ihminen väsyy jopa 15 minuutin jatkuvan lukemisen jälkeen ja 20 minuutin lukemisen jälkeen hänen äänensä voi jopa katketa kokonaan. Jopa ammattipuhujalle 45 minuuttia keskeytymätöntä lukemista samalla kun säilytetään koko puheen yksilöllisten ominaisuuksien kompleksi, on melko vaikea tehtävä. Vaatimukset äänen tallennuksen laadulle olivat myös erittäin korkeat - oli tarpeen sulkea pois erilaisia mallinnusta häiritseviä meluja. Näin saatu alkuperäisen äänen personoitu nauhoitus altistettiin taajuusanalyysille ja matemaattiselle käsittelylle, ja laskentaprosessi kesti usein yli yhden päivän. Tämän jälkeen puhesyntetisaattori voi käyttää tietyn henkilön yksittäistä äänitietokantaa. Luonnollisesti koodausprosessin kesto ja mikä tärkeintä tarve tallentaa referenssipuhetta studioympäristössä, kavensivat merkittävästi puheenkopiointijärjestelmän sovellusaluetta normaaleissa olosuhteissa.

Muistiinpanot

↑ Abe M., Nakamura S., Shikano K. ja Kuwabara H. "Voice convert through vector quantization", julkaisussa Proc. Int. Conf. on Acoust., Speech and Sig. Proc. ICASSP, New York, Yhdysvallat, huhtikuu 1988, voi. 1, s. 655-658.
↑ Levine S. ja Smith JO "Sines+transients + noise audio esitys tietojen pakkaamiseen ja aika/sävelasteikon modifikaatioihin", julkaisussa Proc. 105. tulos AudioEng. Soc., preprint #4781, syyskuu 1998.
↑ Huang X., Acero A., Hon HW. "Spoken Language Processing: opas teoriaan, algoritmeihin ja järjestelmän kehittämiseen", Prentice Hall, NJ, 2001. - s. 980.

Kirjallisuus

B. M. Lobanov, L. I. Tsirulnik "Puheen tietokonesynteesi ja kloonaus", Minsk "Valko-Venäjän tiede", 2008, 316 sivua.
Abe M., Nakamura S., Shikano K. ja Kuwabara H. "Voice conversion through vector quantization", julkaisussa Proc. Int. Conf. on Acoust., Speech and Sig. Proc. ICASSP, New York, Yhdysvallat, huhtikuu 1988, voi. 1, s. 655–658.
Patenttinumero: US 6615174B1, syyskuu 2, 2003.
ITU-T Rec. G.729, "Puheen koodaus nopeudella 8 kbit/s käyttämällä konjugaattirakenteen algebrallisen koodin viritettyä lineaarista ennustetta (CS-ACELP)", maaliskuu. 1996.
Levine S. ja Smith JO "A sinet+transientit+kohinaaudioesitys datan pakkaamiseen ja aika/sävelkorkeuden asteikkomuokkauksiin", julkaisussa Proc. 105. tulos AudioEng. Soc., preprint #4781, syyskuu 1998.
Talkin D. "Vahva algoritmi äänenkorkeuden seurantaan" teoksessa "Speech Coding and Synthesis", Kleijn, WB and Palival, KK Eds. Elsevier, Amsterdam, Alankomaat, 1995.
Grocholevski S. "First Database for Spoken Polish", julkaisussa Proc. Int. Conf. On Language Resources and Evaluation, Grenada, 1998, pp. 1059–1062.
KY Lee, Y Zhao, "Sävelkorkeuden ääriviivojen tilastolliset muunnosalgoritmit, jotka perustuvat prosodisiin lauseisiin". Kansainvälisen konferenssin "Puheprosodia 2004" aineisto. (SP 2004)", Nara, Japani 23.-26. maaliskuuta 2004.
Huang X., Acero A., Hon HW. "Spoken Language Processing: opas teoriaan, algoritmeihin ja järjestelmän kehittämiseen", Prentice Hall, NJ, 2001. - s. 980.