Кантип AI компьютердин сөзүн табигыйраак кыла алат

Мазмуну:

Кантип AI компьютердин сөзүн табигыйраак кыла алат
Кантип AI компьютердин сөзүн табигыйраак кыла алат
Anonim

Негизги алып салуулар

  • Компаниялар компьютерде айтылган кепти реалдуураак кылуунун жолдорун табуу үчүн жарышууда.
  • NVIDIA жакында эле AIны өз үнүңүз менен үйрөтүүгө мүмкүнчүлүк берип, табигый сүйлөө үнүн тартуулай турган куралдарды көрсөттү.
  • Интонация, эмоция жана музыкалуулугу компьютердик үндөрдүн дагы эле жетишпеген өзгөчөлүктөрүн бир эксперт айтат.
Image
Image

Компьютер аркылуу жасалган кеп жакын арада адамдык угулат.

Компьютер тетиктерин жасоочу NVIDIA жакында үнүңүз менен AI үйрөтүүгө мүмкүндүк берип, табигый кептин үнүн тартуулай турган куралдарды көрсөттү. Программа ошондой эле башка адамдын үнүн колдонуп бир баяндамачынын сөздөрүн жеткире алат. Бул компьютерде сүйлөөнү реалдуураак кылуу үчүн өнүгүп келе жаткан аракеттин бир бөлүгү.

"Өркүндөтүлгөн үн AI технологиясы колдонуучуларга табигый түрдө сүйлөөгө мүмкүндүк берет, көптөгөн суроолорду бир сүйлөмгө айкалыштырат жана баштапкы суроонун чоо-жайын тынымсыз кайталоонун зарылдыгын жок кылат," Майкл Загорсек, SoundHound кеп таануу компаниясынын башкы операциялык кызматкери, деп Lifewire электрондук почта маегинде билдирди.

"Азыр көпчүлүк үн AI платформаларында жеткиликтүү болгон бир нече тилдердин кошулушу санарип үн жардамчыларын көбүрөөк географияларда жана көбүрөөк калк үчүн жеткиликтүү кылат", - деп кошумчалады ал.

Robospeech көтөрүлүүдө

Amazon'тун Alexa жана Apple's Siri он жыл мурунку компьютердик сөзгө караганда бир топ жакшыраак угулат, бирок алар жакын арада адамдын чыныгы үнү менен жаңылышпайт.

Жасалма кептин үнүнүн табигыйраак болушу үчүн, NVIDIAнын тексттен сөзгө изилдөө тобу RAD-TTS моделин иштеп чыкты. Тутум адамдарга үнүн, анын ичинде темп, тоналдык, тембр жана башка факторлор менен тексттен сөзгө (TTS) моделин үйрөтүүгө мүмкүнчүлүк берет.

Компания өзүнүн жаңы моделин "Мен AIмын" видео сериясы үчүн көбүрөөк сүйлөшүүгө жарактуу үн баяндоо үчүн колдонду.

"Бул интерфейстин жардамы менен биздин видео продюсер видео сценарийди окуп жатканда өзү жаздыра алат жана андан кийин AI моделин колдонуп, анын сөзүн аялдын үнүн айтууга айландыра алат. Бул негизги баяндоону колдонуп, продюсер AIны башкара алат. үн актеру - конкреттүү сөздөрдү баса белгилөө үчүн синтезделген кепти өзгөртүү жана видеонун обонун жакшыраак көрсөтүү үчүн баяндоо темптерин өзгөртүү ", - деп жазган NVIDIA өзүнүн веб-сайтында.

Ушундан да кыйын

Эксперттердин айтымында, компьютерде жаратылган кепти табигый үн чыгаруу татаал маселе.

"Анын компьютердик версиясын түзүү үчүн кимдир бирөөнүн үнүн жүздөгөн саатка жазышыңыз керек", - деди "Kukarella" компаниясынын текстти сүйлөөгө программалык камсыздоо компаниясынын башкы директору Назим Рагимов Lifewire менен болгон маегинде. «Ал эми жаздыруу жогорку сапатта, профессионалдык студияда жазылган болушу керек. Сапаттуу кеп канча саат жүктөлсө жана иштетилсе, натыйжа ошончолук жакшы болот."

Тексттен сөзгө оюн оюнда, үнү бузулган адамдарга жардам берүү үчүн же колдонуучуларга тилдер арасында өз үнү менен которууга жардам берүү үчүн колдонулушу мүмкүн.

Интонация, эмоция жана музыкалуулугу компьютердик үндөрдүн дагы эле жетишпеген өзгөчөлүгү, дейт Рагимов.

Эгер AI бул жетишпеген шилтемелерди кошо алса, компьютер тарабынан түзүлгөн кеп "чыныгы актерлордун үнүнөн айырмаланбайт" деп кошумчалады ал. "Бул аткарылып жаткан иш. Башка үндөр радио алып баруучулар менен атаандаша алат. Жакында ырдап, аудиокитептерди окуй алган үндөрдү көрөсүз."

Кеп технологиялары бизнестин кеңири чөйрөсүндө популярдуу болуп баратат.

"Автоунаа өнөр жайы коопсуз жана туташкан айдоо тажрыйбасын түзүүнүн бир жолу катары үн AIди колдонуучу болуп калды", - деди Загорсек.

"Ошондон бери үн жардамчылары бардык жерде кеңири жайыла баштады, анткени бренддер кардарлардын тажрыйбасын жакшыртуу жана алардын өнүмдөрү жана кызматтары менен иштешүүнүн жеңил, коопсуз, ыңгайлуу, эффективдүү жана гигиеналык ыкмаларына болгон суроо-талапты канааттандыруунун жолдорун издеп жатышат."

Адатта, үн AI сурамдарды эки кадамдуу процессте жоопко айландырат. Ал сөздү автоматтык түрдө кеп таануу (ASR) аркылуу текстке транскрипциялоо жана андан кийин ал текстти табигый тилди түшүнүү (NLU) моделине берүү менен башталат.

Image
Image

SoundHound ыкмасы бул эки кадамды реалдуу убакытта сөзгө көз салуу үчүн бир процесске айкалыштырат. Компаниянын ырастоосунда, бул ыкма үн жардамчыларына колдонуучу сурамдарынын маанисин адам сүйлөп бүтө электе эле түшүнүүгө мүмкүндүк берет.

Компьютердик кептин келечектеги жетишкендиктери, анын ичинде кыстарылгандан (булуттук туташуунун кереги жок) гибридге (киргизилген плюс булут) жана булуттун гана "ар кандай туташуу опцияларынын болушу бардык тармактардагы компанияларга көбүрөөк тандоо мүмкүнчүлүгүн берет. наркы, купуялуулугу жана иштетүү кубаттуулугунун болушу боюнча ", - деди Загореск.

NVIDIA анын жаңылыктары AI моделдери үн менен иштөөдөн тышкары экенин айтты.

"Тексттен сөзгө оюн ойноодо, үнү начар адамдарга жардам берүү үчүн же колдонуучуларга өз үнү менен тилдерди которууга жардам берүү үчүн колдонсо болот", - деп жазган компания. "Ал атүгүл ырдын обонуна гана эмес, вокалдын артындагы эмоционалдык экспрессияга да дал келген белгилүү ырчылардын аткаруусун кайра жарата алат."

Сунушталууда: