Äänen kloonaus ( englanniksi voice change, voice cloning ) on ohjelmiston ja laitteiston avulla tuotettu tekniikka, joka toteuttaa muutoksen ihmisen äänessä sekä reaaliajassa että viivästetyssä erätilassa.
Tekniikka mahdollistaa henkilön puheen henkilökohtaisten ominaisuuksien simuloinnin melko täydellisesti alkuperäisen kanssa, jota kutsutaan "kopiokohdeksi".
Tällä hetkellä puheentunnistusjärjestelmät ovat suhteellisen hyvin kehittyneitä . Niitä käytetään erilaisten kodinkoneiden puheohjauksessa (puhelimissa, auton audiojärjestelmissä ja pesukoneissa). Käänteinen prosessi - sanojen erottaminen äänisignaalista ja puheen syntetisointi - kohtaa useita vaikeuksia.
Ohjelmien katsotaan kuuluvan "äänenvaihtoohjelmiston" tai "äänenvaihtajan" luokkaan:
Myös SDK-paketit:
Aiemmin jotkut yritykset kaupallisesti soittajan äänenvaihtopalvelu puhelimitse reaaliajassa. Tämä tehtiin seuraavasti:
Tekniikan kuvaus
Puheen kloonauksen tekniikka reaaliaikaisessa puhelinkeskustelussa perustuu perustuen tunnettuihin algoritmeihin äänikantoaaltosignaalin matemaattista käsittelyä varten [1] [2, 4]. Samalla he käyttävätDFT -menetelmät diskreetin signaalin taajuuksien analysointiin (käyttämällä erityistä Fourier-muunnosmenetelmää ), joka on saatu digitoimalla analoginen puhelinsignaali kapeakaistaisella puhekoodekilla G.729 [2] [5, 6, 7, 8 ]. Muunnetun puheen synteesi kantoaaltosignaalin, eli tuloksena olevan "kloonatun äänen" perusteella toteuttaa mahdollisuuden säilyttää mahdollisimman paljon kopioidun alkuperäisen äänen henkilökohtaiset akustiset ominaisuudet: ääntämisen foneettiset ominaisuudet, aksentti ja jopa artefaktit, kuten esim. änkytys [3] [9]. Näin ollen kaiuttimen keinotekoisuutta on mahdotonta tunnistaa edes alkuperäisen puhelinsignaalin erityisellä käsittelyllä ja matemaattisella analyysillä. Puheen kloonaustekniikan laiton käyttö on ehdottomasti kielletty tätä palvelua tarjoavan verkkopalvelun erityisen suojausohjelman mukaisesti. Kuvattu puheen kloonaustekniikka puhelinverkoissa oli tekijöiden mukaan viimeisin tuote, jolla ei ollut aiemmin analogeja.
Edellinen taso
Nykyiset järjestelmät konepuheen luomiseksi ovat osoittautuneet hyvin tietyissä teknisissä markkinarakoissa: autonavigointijärjestelmissä, rannekelloissa, elektronisissa "luku"-käännössanakirjoissa ja niin edelleen. Tällaisissa järjestelmissä ei ole asetettu tehtävää jäljitellä tietyn henkilön ääntä, joten tuloksena oleva konepuhe ei myöskään ole personoitua , ja se on helposti tunnistettavissa sen selvän keinotekoisen alkuperän vuoksi.
Aikaisemmin yritykset syntetisoida tietyn henkilön puhe perustuivat periaatteeseen luoda puhekloonin "ydin", joka sisältää täydellisen joukon akustisia, foneettisia ja prosodisia ominaisuuksia - yksittäisiä puheominaisuuksia. Tämä vaati melko yksityiskohtaisen henkilökohtaisen tietokannan "kopioidusta" äänestä. Henkilö, jonka ääni piti kopioida, joutui lukemaan pitkään valmisteltua tekstiä, joka oli erityisesti suunniteltu ja sisältää suuren määrän foneemia maksimoidakseen puhujan puheen piirteet.
Tämä aiheutti tiettyjä vaikeuksia, koska tiedetään, että tavallinen ihminen väsyy jopa 15 minuutin jatkuvan lukemisen jälkeen ja 20 minuutin lukemisen jälkeen hänen äänensä voi jopa katketa kokonaan. Jopa ammattipuhujalle 45 minuuttia keskeytymätöntä lukemista samalla kun säilytetään koko puheen yksilöllisten ominaisuuksien kompleksi, on melko vaikea tehtävä. Vaatimukset äänen tallennuksen laadulle olivat myös erittäin korkeat - oli tarpeen sulkea pois erilaisia mallinnusta häiritseviä meluja. Näin saatu alkuperäisen äänen personoitu nauhoitus altistettiin taajuusanalyysille ja matemaattiselle käsittelylle, ja laskentaprosessi kesti usein yli yhden päivän. Tämän jälkeen puhesyntetisaattori voi käyttää tietyn henkilön yksittäistä äänitietokantaa. Luonnollisesti koodausprosessin kesto ja mikä tärkeintä tarve tallentaa referenssipuhetta studioympäristössä, kavensivat merkittävästi puheenkopiointijärjestelmän sovellusaluetta normaaleissa olosuhteissa.