Негизги алып салуулар
- Изилдөөчүлөрдүн айтымында, алар көрүү жана угуу аркылуу AIга видеолорду белгилөөнү үйрөтө алышат.
- AI системасы визуалдык жана аудио маалыматтар ортосунда бөлүшүлгөн түшүнүктөрдү тартуу үчүн берилиштерди көрсөтүүнү үйрөнөт.
-
Бул AIды адамдар үйрөнүүдө эч кандай кыйынчылыксыз, бирок компьютерлер түшүнүү кыйынга турган түшүнүктөрдү түшүнүүгө үйрөтүү аракетинин бир бөлүгү.
Жаңы жасалма интеллект системасы (AI) видеолоруңузду көрүп, угуп, болуп жаткан нерселерди белгилей алат.
MIT изилдөөчүлөрү AIга видео жана аудио ортосунда бөлүшүлгөн аракеттерди тартууга үйрөтүүчү ыкманы иштеп чыгышты. Мисалы, алардын ыкмасы видеодо ыйлаган наристенин аракети үн клибиндеги "ыйлоо" деген сөзгө байланыштуу экенин түшүнө алат. Бул AIга адамдар үйрөнүүдө кыйынчылыксыз, бирок компьютерлер түшүнүү кыйынга турган түшүнүктөрдү кантип түшүнүүнү үйрөтүү аракетинин бир бөлүгү.
"Кеңири жайылган окутуу парадигмасы, көзөмөлдөгү окутуу, сизде жакшы сүрөттөлгөн жана толукталган маалымат топтомдору болгондо жакшы иштейт", - деди AI адиси Фил Уиндер Lifewire менен болгон маегинде. "Тилекке каршы, берилиштер топтому чанда гана толук болот, анткени чыныгы дүйнөдө жаңы кырдаалдарды көрсөтүү жаман адат бар."
Акылдуу AI
Компьютерлер күнүмдүк сценарийлерди аныктоодо кыйынчылыкка дуушар болушат, анткени алар адамдар сыяктуу үн менен сүрөттөрдү эмес, маалыматтарды кыйратышы керек. Машина сүрөттү "көргөндө" ал сүрөттү сүрөт классификациясы сыяктуу тапшырманы аткаруу үчүн колдоно ала турган маалыматтарга коддошу керек. Киргизүүлөр видеолор, аудио клиптер жана сүрөттөр сыяктуу бир нече форматта келгенде AI батып калышы мүмкүн.
"Бул жердеги эң негизги маселе, машина кантип ошол ар кандай модальдуулуктарды тегиздей алат? Адамдар катары, бул биз үчүн оңой ", - деди Александр Лю, MIT изилдөөчүсү жана бул темадагы макаланын биринчи автору. кабар релиз. "Биз унааны көрүп, анан өтүп бара жаткан унаанын үнүн угабыз жана булар бир эле нерсе экенин билебиз. Бирок машина үйрөнүү үчүн бул анчалык жөнөкөй эмес."
Liu командасы AI ыкмасын иштеп чыгышты, алардын айтымында, визуалдык жана аудио маалыматтар ортосунда бөлүшүлгөн түшүнүктөрдү тартуу үчүн маалыматтарды көрсөтүүнү үйрөнүшөт. Бул билимди колдонуу менен, алардын машинада үйрөнүү модели видеодо белгилүү бир аракет кайсы жерде болуп жатканын аныктап, аны белгилей алат.
Жаңы модель видеолор жана аларга тиешелүү тексттик коштомо жазуулар сыяктуу чийки дайындарды алып, аларды видеодогу объекттер жана аракеттер тууралуу функцияларды же байкоолорду алуу менен коддойт. Андан кийин ал маалымат чекиттерин кыстаруу мейкиндиги деп аталган тордо картага түшүрөт. Модель окшош маалыматтарды тордогу жалгыз чекиттер катары бириктирет; бул маалымат чекиттеринин же векторлордун ар бири жеке сөз менен көрсөтүлөт.
Мисалы, жонглёрлук кылган адамдын видео клиби "жонглёрлук" деп белгиленген векторго түшүрүлүшү мүмкүн.
Изилдөөчүлөр моделди векторлорду белгилөө үчүн 1000 сөздү гана колдоно тургандай кылып иштеп чыгышкан. Модель кайсы аракеттерди же түшүнүктөрдү бир векторго коддоону чече алат, бирок ал 1000 векторду гана колдоно алат. Модель дайындарды эң туура деп эсептеген сөздөрдү тандайт.
"Эгер чочколор жөнүндө видео болсо, модель "чочко" деген сөздү 1000 вектордун бирине ыйгарышы мүмкүн. Андан кийин, модель аудио клипте кимдир бирөө "чочко" деген сөздү айтып жатканын укса, аны коддоо үчүн дагы эле ошол эле векторду колдонушу керек ", - деп түшүндүрдү Лю.
Видеолоруңуз, коддон чыгарылган
MIT тарабынан иштелип чыккан жакшыраак этикеткалоо системалары AIдагы бир тараптуулукту азайтууга жардам берет, - деди Мариан Бесзедес, биометрикалык фирманын Innovatrics изилдөө жана өнүктүрүү бөлүмүнүн башчысы Lifewire электрондук почтасы менен болгон маегинде. Бесзедес маалымат индустриясы AI системаларын өндүрүш процессинин көз карашынан көрө алат деп сунуштады.
"Тутумдар чийки маалыматтарды кириш (чийки зат) катары кабыл алат, аны алдын ала иштетет, жутуп алат, чечимдерди же болжолдоолорду кабыл алат жана аналитиканы чыгарат (даяр продукция)," Бесзедес билдирди. "Биз бул процесстин агымын "маалымат фабрикасы" деп атайбыз жана башка өндүрүш процесстери сыяктуу эле, ал сапатты көзөмөлдөөдөн өтүшү керек. Маалымат индустриясы AIнын бир жактуулугун сапат маселеси катары карашы керек.
"Керектөөчүлөрдүн көз карашынан алганда, туура эмес белгиленген маалыматтар, мисалы, белгилүү бир сүрөттөрдү/видеолорду онлайн издөөнү кыйындатат, - деп кошумчалады Бесзедес. "Туура өнүккөн AI менен сиз кол менен энбелгилөөгө караганда автоматтык түрдө, бир топ тезирээк жана нейтралдуураак жасай аласыз."
Бирок MIT моделинде дагы эле кээ бир чектөөлөр бар. Биринчиден, алардын изилдөөлөрү бир эле учурда эки булактан алынган маалыматтарга багытталган, бирок чыныгы дүйнөдө адамдар бир эле учурда маалыматтын көптөгөн түрлөрүнө туш болушат, деди Лю
Жана биз 1 000 сөз мындай маалымат топтомунда иштээрин билебиз, бирок аны чыныгы көйгөйгө жалпылаштырууга болобу, жокпу билбейбиз, - деп кошумчалады Лю.
MIT изилдөөчүлөрүнүн айтымында, алардын жаңы техникасы көптөгөн окшош моделдерден ашып кетет. Эгер AI видеолорду түшүнүүгө үйрөтүлсө, досуңуздун эс алуудагы видеолорун көрбөй калып, анын ордуна компьютерде түзүлгөн отчетту ала аласыз.