Google Neural Machine Translation (GNMT) on Googlen kehittämä ja marraskuussa 2016 esitelty Neural Machine Translation (NMT) -järjestelmä, joka käyttää keinotekoista hermoverkkoa parantamaan käännösten sujuvuutta ja tarkkuutta Google-kääntäjässä . [1] [2] [3]
GNMT parantaa käännösten laatua käyttämällä esimerkkipohjaista konekäännöstä ( EBMT ), jossa järjestelmä "oppii miljoonista esimerkeistä". [2] Ehdotettua GNMT-järjestelmän oppimisarkkitehtuuria testattiin ensin yli sadalla Google-kääntäjän tukemalla kielellä. [2] Suuren päästä päähän -rakenteen ansiosta järjestelmä oppii ajan myötä tuottamaan parempia ja luonnollisempia käännöksiä. [1] GNMT pystyy kääntämään kokonaisia lauseita, ei osia. [1] GNMT-verkko voi suorittaa kieltenvälisiä konekäännöksiä koodaamalla lauseen semantiikan sen sijaan, että se muistaisi yksittäisten lauseiden käännökset. [2] [4]
Google Brain -projektin loivat vuonna 2011 "Google X:n salaisessa tutkimuslaboratoriossa" [5] Googlen työntekijä Jeff Dean , Googlen tutkija Greg Corrado ja Stanfordin yliopiston tietojenkäsittelytieteen professori Andrew Ng . [6] [7] [8] Eunin työ oli perusta yhdelle Googlen ja Stanfordin suurimmista teknologisista läpimurroista. [5]
Syyskuussa 2016 Googlen tutkimusryhmä ilmoitti GNMT-käännösjärjestelmän kehittämisestä, ja marraskuussa Google Translate alkoi käyttää neurokonekäännöstä (NMT) aiempien tilastomenetelmien (SMT) sijaan [1] [9] [10] [ 11] , jota oli käytetty lokakuusta 2007 lähtien omassa suljetussa SMT-järjestelmässämme. [12] [13]
Google Translatessa oleva NMT-järjestelmä käyttää suurta keinotekoista hermoverkkoa, joka soveltuu syvään oppimiseen . [1] [2] [3] Tutkimalla miljoonia esimerkkejä GNMT parantaa käännöksen laatua käyttämällä laajempaa kontekstia sopivimman käännöksen päättelemiseen. Sitten tulos järjestetään uudelleen ja mukautetaan sopimaan ihmiskielen kielioppiin. GNMT ei luonut omaa sisäistä universaalia kieltä, vaan pyrki pikemminkin löytämään yhteisiä piirteitä monien kielten välillä, joiden pitäisi kiinnostaa enemmän psykologeja ja lingvistejä kuin tietotekniikan tutkijoita. [14] Vuonna 2016 lisättiin uusi käännöskone molempiin suuntiin yhdeksällä kielellä: englanti, ranska, saksa, espanja, portugali, kiina, japani, korea ja turkki. [15] Maaliskuussa 2017 lisättiin kolme muuta kieltä: venäjä, hindi ja vietnami. [16] Samassa kuussa heprean ja arabian tuki lisättiin Google-kääntäjäyhteisön avulla. [17] Lisätukea lisättiin huhtikuun 2017 lopussa yhdeksälle intialaiselle kielelle, nimittäin hindille, bengalille, marathille, gudžaratille, pandžabille, tamilille, telugulle, malajalamille ja kannadalle. [kahdeksantoista]
Alla on luettelo kielipareista, jotka käyttävät Googlen Neural Machine Translation (NMT) -mallia kääntämiseen. Heinäkuusta 2017 alkaen kaikilla kielillä tuetaan vain käännöksiä englannista ja englannista: [19]
kielipari | Kielikoodit | |
---|---|---|
yksi | afrikaans <-> englanti | af<->en |
2 | arabia <-> englanti | ar<->en |
3 | bulgaria <-> englanti | bg<->en |
neljä | kiina (yksinkertaistettu) <-> englanti | zh-CN <->en |
5 | kiina (perinteinen) <-> englanti | zh-TW<->en |
6 | kroatia <-> englanti | hr<->en |
7 | Tšekki <-> englanti | cs<->en |
kahdeksan | tanska <-> englanti | da<->en |
9 | hollanti <-> englanti | nl<->en |
kymmenen | ranska <-> englanti | fr<->en |
yksitoista | saksa <-> englanti | de<->en |
12 | kreikka <-> englanti | el<->en |
13 | heprea <-> englanti | iw<->en |
neljätoista | hindi <-> englanti | hi<->en |
viisitoista | Islanti <-> englanti | is<->en |
16 | Indonesian <-> englanti | id<->en |
17 | italia <-> englanti | it<->en |
kahdeksantoista | japani <-> englanti | ja<->en |
19 | Korean <-> englanti | ko<->en |
kaksikymmentä | norja <-> englanti | no<->en |
21 | puola <-> englanti | pl<->en |
22 | portugali <-> englanti | pt<->en |
23 | romania <-> englanti | ro<->en |
24 | venäjä <-> englanti | ru<->en |
25 | slovakki <-> englanti | sk<->en |
26 | espanja <-> englanti | es<->en |
27 | ruotsi <-> englanti | sv<->en |
28 | Thai <-> englanti | th<->en |
29 | turkki <-> englanti | tr<->en |
kolmekymmentä | vietnami <-> englanti | vi<->en |
GNMT-järjestelmän sanotaan olevan Google-kääntäjän edellistä versiota parempi siinä mielessä, että se pystyy suorittamaan "suoran käännöksen", ts. kääntää suoraan kielestä toiselle (esimerkiksi japanista koreaan). [2] Aiemmin Google-kääntäjä käänsi ensin lähdekielestä englanniksi ja sitten englannista kohdekielelle sen sijaan, että se olisi kääntänyt suoraan kielestä toiselle. [neljä]
Konekäännösten lähestymistavat | |
---|---|
|
luonnollisen kielen käsittely | |
---|---|
Yleiset määritelmät | |
Tekstianalyysi |
|
Viittaus |
|
Konekäännös |
|
Tunnistaminen ja tiedonkeruu | |
Temaattinen malli | |
Vertaisarviointi |
|
Luonnollisen kielen käyttöliittymä |