Тәрҗемә программалары үзләренең файдалы булуларын инде күптән исбатладылар, әмма һәр зур онлайн-тәрҗемәченең стандарт тупламасына күп тел керә микән соң? Әлеге проблема турында «Яндекс» программистлары уйлана башлады. Русиянең үзендә генә дә кешеләр аралашкан һәм язма теле булган 200 йөзгә якын «кече» тел бар бит, һәм нигә әле программистларга аларны башка «зур» һәм «кече» телләргә тәрҗемә итәргә мөмкинлек бирмәскә?
«Зур» һәм «кече» телләр
Дөньяда гаҗәп күп санда телләр бар. Аларның күбесендә соңрак электрон форматка күчерелгән һәм «Яндекс» кебек зур эзләгечләргә кергән шактый гына китаплар һәм башка документлар язылган. Әмма аз кеше аралаша торган һәм басма яисә кулъязма документлары бик аз булган (оцифровка боларга бигрәк тә аз тәтегән) «кече» телләр дә бар.
Әгәр теләсә кайсы онлайн-тәрҗемәчегә керсәк, без анда нигездә һәркемгә таныш телләр күрәчәкбез ─ бернинди экзотика юк. Һәм бу аңлашыла да: онлайн-тәрҗемәчеләр куллана торган машина тәрҗемәсе зур күләмле мәгълүматларны анализлау һәм чагыштыру ярдәмендә эш итә. Әмма мәгълүматы аз булган телләрдән ничек тәрҗемә итәргә соң? Без бит нинди дә булса профессиональ тәрҗемәченең белемнәрен алып, программага кертә алмыйбыз, без программаны мондый текстларны эшкәртелгән мәгълүматлар нигезендә автоматик рәвештә тәрҗемә итәргә өйрәтергә тиеш.
Безнең «Яндекста» әлеге темага берничә аерым-аерым тикшеренү бар иде, ләкин шушы вакытка кадәр моны бер технология кысаларында берләштереп булмады. «Яндексның» Голландиядәге офисыннан коллегабыз мөрәҗәгать иткәннән соң бар да үзгәрде. Ул Кариб утрауларында берничә йөз мең кеше сөйләшә торган сирәк папьяменто теле белүче кеше булып чыкты. Аның әлеге телне «Яндекс.Переводчик»ка өстәве, ниһаять, булган белемебезне системага салуга этәргеч булды. Без эшне башлап җибәрдек.
Модельләр җыелмасы буларак тел
«Яндекс.Переводчик» таяна торган статистик машина тәрҗемәсе нигезендә озак вакыт бары тик лексик модельләр генә, ягъни төрле сүзләрнең туганлыгын һәм башка лингвистик характеристикаларны исәпкә алмый торган модельләр ятты. Гадирәк әйткәндә, бу модельләр өчен «әни» һәм «әнигә» сүзләре ─ бөтенләй төрле сүзләр; мәсәлән, «әни» һәм «йөгерү» сүзләре кебек үк төрле алар.
15 ел чамасы элек лексик модельне морфология (сүз үзгәртү һәм сүз ясау) һәм синтаксис (җөмлә төзелеше) модельләре белән тулыландырып, статистик машина тәрҗемәсенең сыйфатын яхшыртып булганлыгы аңлашыла башлады. Кул кагыйдәләренә нигезләнгән системалардан аермалы буларак, морфология һәм синтаксис модельләрен автоматик рәвештә статистика нигезендә формалаштырып була. Менә шул ук «әни» сүзе белән гади мисал: әгәр әлеге сүзнең төрле формалары булган меңнәрчә текстны нейрон челтәргә кертсәң, әлеге челтәр сүз ясалышы принципларын аңлаячак һәм контекстка карап, дөрес форманы тәкъдим итәчәк.
Гадидән комплексы модельгә күчү эшнең гомуми сыйфатын яхшыртты, әмма ул эшләсен өчен элеккегечә йөзләгән мең үрнәк кирәк, ә аларны зур булмаган телләр өчен табу кыен. Ахыр чиктә, «кече» телләрнең нәтиҗәле тәрҗемәсен төзергә күп телләрнең үзара бәйле булуы ярдәм итте.
Туган белән туган арасы
Без һәр телне бәйсез система буларак карамаска булдык һәм алар арасындагы туганлык мөнәсәбәтләрен исәпкә ала башладык. Нәрсә дигән сүз соң бу? Тәрҗемәсен төзергә кирәк булган тел бар, ләкин бу телдә язма мәгълүмат җитәрлек түгел икән, бу очракта башка, «зуррак» тугандаш телләрне дә алырга мөмкин дигәнне аңлата бу. Аларның аерым модельләрен (морфология, синтаксис, лексика) «кече» тел модельләрендәге бушлыкларны тутырыр өчен кулланып була. Бу төрле тел арасында сүзләрне һәм кагыйдәләрне карап та тормыйча күчерү булып та тоелыр, әмма чынлыкта технология бераз акыллырак эш итә.
Теләсә кайсы «кече» тел өстендә эшләүнең беренче этабы «зур» тел өчен тәрҗемәче ясаудан берничек тә аерылмый. Без машинага үзебездә булган барлык материалларны кертәбез дә, процессны башлап җибәрәбез. Ул төрле телләрдә язылган төрле параллель текстлар аша үтә һәм һәр табылган сүз өчен тәрҗемә вариантлары таба. Моның өчен нейрон челтәрләр кулланырга була, әмма бу мәҗбүри түгел ─ гадәттә, гади инструментлар да җитә. Система, параллель текстларга карап, сүзлек запасын арттыра һәм тәрҗемәләрне истә калдыра. Миллионлаган мисаллары булган зур телләр өчен башка берни дә эшләү кирәкми ─ система барлык мөмкин сүзләрне, аларның формаларын табып, тәрҗемәләрен генә истә калдырмый, ә контекстка бәйле рәвештә аларның куллану очракларын да исәпкә ала. Зур булмаган тел белән без төш моделен тудыра алабыз (иң еш кулланыла торган сүзләр һәм телдәге тезелмәләр), әмма сүз ясалышы һәм барлык сүзләрне биләп алу өчен кулланылыш мисаллары җитәрлек булмаячак. Безнең ысул нигезендә яткан технология инде булган мисаллар белән берникадәр тирәнрәк эш итә һәм башка телләр турында белемне куллана.
Мисалга ике бик якын төрки телне, башкорт һәм татар телләрен, алыйк. Алар кайбер авазлар белән аерылалар: мәсәлән, «девушка» татарча «кыз», ә башкортча «ҡыҙ», лестница татарча «баскыч», ә башкортча «баҫҡыс». Ләкин аларның лингвистик характеристикалары ─ морфология дә, синтаксис та ─ бер үк диярлек. Безнең технология әлеге аваз аермаларын аңлый һәм, әгәр ике телнең кайсында да булса мәгълүмат җитәрлек булмый икән, тәрҗемәдә кайбер сүзләрне ике телдән дә ала белә.
Яисә X-XIV гасырларда югары алман диалектлары нигезендә барлыкка килгән идишны алыйк. Бу диалектлар шулай ук бүгенге әдәби алман теленең дә нигезендә тора. Шуңа да идиш һәм алман телләрендәге күпчелек сүзләр бер үк яки бик охшаш. Идиш яһүд алфавитын куллана, әмма, гыйбрани (иврит) теленнән аермалы буларак, иске яһүд сүзләреннән кала, язуда барлык сүзләрдә дә сузыкларны күрсәтә. Башка яктан, идишта язуның фонетик принцибы кулланыла, һәм моның аркасында, әгәр алман һәм идиш телләрендәге сүзләр туры килгән очракта, аларны автоматик рәвештә транлитерлап була. Мари теленә (чирмеш теле) дә күз салырга мөмкин: анда язу барлыкка килгәннән бирле (XIX гасыр) ике әдәби вариант аерыла ─ болын (көнчыгыш) һәм тау (төньяк) телләре. Алар фонетика һәм берникадәр дәрәҗәдә лексикалары белән аерыла; моннан тыш, тау мари телендә сузык авазлар гармониясе бар, ә болын мари телендә ул юк. Тулаем алганда, телләр охшаш диярлек, әмма болын марилары тау мариларыннан күбрәк булу сәбәпле, мари теле дип гадәттә болын телен саныйлар. Шуңа күрә дә болын мари телендә текстлар шактый күбрәк, һәм тәрҗемә нигезе итеп без нәкъ менә аларны кулланабыз.
Әгәр машинага сүзнең хәтта башлангыч формасы да билгеле булмаса, әмма шул ук вакытта телнең килеп чыгу тарихы билгеле икән, машина барлык телләр корпусыннан мөмкин булган барлык мәгълүматтан бирелнән сүзгә иң якын булганын табып, аңлый ала. Шулай итеп ул сүзлек мәгънәсен генә түгел, контекст мәгънәсен дә аңлый. Идиш мисалларына әйләнеп кайтыйк: әлеге телдә שטערן (штерн) сүз бар, ул алмнача «йолдыз» (немецкое Stern) һәм «маңгай» (нем. Stirn) дигәнне аңлата. «Күктә йолдызлар күп» дигән җөмләдә, билгеле, беренче мәгънә кулланыла, ә «маңгаена сукты» дигәндә ─ икенчесе. Тагын באַנק (банк) сүзе бар, ул «банк» яки «эскәмия» дигәнне аңлата. Әлеге сүзләр алманча шулай ук бер төрле языла, ләкин күплек санда алар аерыла («эскәмияләр» Bänke, ә «банклар» — Banken була); ә идишта күплек сан бертөрле (בענק — бэнк). Безнең технология әлеге сүзләрне автомат рәвештә әзер мисалларсыз һәм кулдан тәэсир итмичә ятлый белә.
Практик һәм иҗтимагый файда
Әлбәттә, кече телләрдән тәрҗемә итү эшендә үзенә күрә бер «асессор» ─ әлеге телне белгән һәм төрле методикалар ярдәмендә тәрҗемәнең ни дәрәҗәдә дөрес булуын билгели алган кеше кирәк. Безнең очракта Русиядә кече телләрне тикшерү һәм саклау белән шөгыльләнүче җирле оешмалар ярдәмгә килде. Мәсәлән, мари-рус тәрҗемәчесен булдыруда безгә берьюлы берничә оешма ярдәм итте, һәм без лингвистик ярдәм күрсәткән һәм тәрҗемә сыйфатына бәя бирү өчен үрнәк мари-рус тәрҗемәләре әзерләгән В.М. Васильев ис. Мари тел, әдәбият һәм тарих фәнни-тикшеренү институты һәм Республика мари мәдәнияте үзәге белән эш алып бардык. Удмурт теленнән теленнән тәрҗемәче ясаганда без телнең корпусын булдыру өстендә эшләгән энтузиастлар белән таныштык. Төбәкләрдә дөрес тәрҗемәче булдыруда ярдәм итәргә әзер, үз телләре язмышына битараф булмаган кешеләр, гомумән әйткәндә, җитәрлек. Илебезнең зурлыгын һәм анда яшәүче төрле халыкларның санын исәпкә алсаң, башка телләрдән машина тәрҗемәсе өлкәсендә эшнең гаять күплеге аңлашыла.
Яхшы дәрәҗәдә кулланылган очракта барлык өстәмә мәгълүматлар тәрҗемәнең сыйфатын яхшыртырга мөмкинлек бирә. Без исә тугандаш телләрдә кулланыла торган мәгълүматлардан куллану технологиясе киләчәктә киңрәк юнәлешләрдә дә кулланылыр һәм нигездә телләр арасындагы бәйләнешләрне яхшырак аңларга, һәм, нәтиҗә буларак, текстларны төгәлрәк тәрҗемә итәргә ярдәм булыр, дип өметләнәбез. Шуңа да әлеге технология «кече» телләр турында түгел, ә дөньядагы төрле телләр арасында бәйләнешләр булдыру турында дисәк, дөресрәк булыр. Бу очракта ул танылган noisy channel моделенә (машина тәрҗемәсендә барыбыз да бер телдә сөйләшәбез, әмма интерпретация безгә хаталы барып җитә, һәм машинаның максаты ─ шул хаталарны төзәтү) яхшы туры килә. Әмма бу инде башка зур һәм кызыклы мәсьәлә.
Антон Дворкович, «Яндексның» машина тәрҗемәсе төркеме хезмәткәре
Nplus1 сайтыннан Эльвира Зиннәтуллина тәрҗемәсе