La du popularaj kaj novaj teknologiaj lanĉoj de projekto OpenAI, ChatGPT kaj DALL-E2, altiris multan atenton de uzantoj de amaskomunikiloj kaj sociaj retoj. Diskutoj pri tio, kion oni povas fari kun tiuj teknologioj, kiaj laboroj povas esti anstataŭigitaj, kiel trakti kopirajtajn problemojn, kaj kiel tiuj teknologioj povas pligrandigi ekzistantajn antaŭjuĝojn estas oftaj en la kampoj de ciferecaj rajtoj, teknologio kaj ĵurnalismo.
Global Voices provis la DALL-E2, la bildilon de AI (artefarita inteligenteco), por vidi kiel ĝi generis bildojn el malsamaj lingvoj. Ni tajpis la saman frazon en naŭ lingvoj: “Oleo-pentrado de la ombro de virino funebranta ĉe la fenestro”.
Jen la rezultoj, kiujn ni ricevis:
En la angla: Oil painting of a shadow of a grieving woman at the window
En la hispana: Pintura al óleo de la sombra de una mujer en duelo ante la ventana
En la ĉeĥa: Olejomalba stínu truchlící ženy u okna
En la rusa: Картина маслом силуэт скорбящей женщины у окна
En la indonezia: Lukisan cat minyak bayangan seorang janda
perempuan yang sedang berduka di samping jendela
En la simpligita ĉina: 窗边悲痛女人的影子油画
En la kazaĥa: Терезедегі қайғылы әйелдің көлеңкесінің майлы бояу суретi
En la uzbeka: Deraza oldida qayg'u chekayotgan ayol soyasining moyli rasmi
En la malajala: ജനാലയ്ക്കരികിൽ ദുഃഖിക്കുന്ന ഒരു സ്ത്രീയുടെ നിഴലിന്റെ ഓയിൽ പെയിന്റിംഗ്
Bildo farita de Global Voices per OpenAI
Evidente, kelkaj el tiuj fotoj estas sufiĉe malsamaj de la originala telekomando. Tio povus okazi pro nesufiĉa kvanto da datumoj en la originalaj lingvoj. Kiel la inventintoj de DALL-E klarigis en intervjuo al Tech Crunch, la modelo, pri kiu ili laboras, nomiĝas CLIP (Contrastive Language-Image Pre-training). CLIP estis trejnita sur 400 milionoj da bildparoj kun tekstaj subtitoloj kolektitaj en la Interreto. OpenAI diras en sia retejo:
GPT-3 showed that language can be used to instruct a large neural network to perform a variety of text generation tasks. Image GPT showed that the same type of neural network can also be used to generate images with high fidelity. We extend these findings to show that manipulating visual concepts through language is now within reach.
GPT-2 montris, ke skriba lingvo povas esti uzata por instrui grandan neŭroreton plenumi diversajn taskojn pri generado de tekstoj. La bildo GPT montris, ke la sama speco de neŭroreto ankaŭ povas esti uzata por generi altfidelecajn bildojn. Ni konstruas sur ĉi tiuj trovoj por montri, ke ni povas nun manipuli vidajn konceptojn per skriba lingvo.
“Ni vivas en vida mondo,” diris Ilya Sutskever, ĉefa sciencisto ĉe OpenAI, en intervjuo al MIT Technological Review.
In the long run, you’re going to have models which understand both text and images. AI will be able to understand language better because it can see what words and sentences mean.
En la estonteco, ni havos ŝablonojn, kiuj komprenas kaj tekston kaj bildojn. La AI povos kompreni la lingvon pli bone, ĉar ĝi povos vidi, kion signifas vortoj kaj frazoj.
Ĉar malsamaj lingvoj produktis tiajn malsamajn rezultojn, ŝajnas, ke la fokuso de ĉi tiu interreta datumkolekto, surbaze de kiu funkcias la modelo, uzis pli vaste parolatajn lingvojn, kiel la anglan kaj la hispanan, sed ne malpli evidentajn lingvojn.
Tiom da interretaj bildoj kun priskribo en la uzbeka aŭ la malajala ne ĉeestis en la originaj datumaroj, per kiuj AI estis trejnita. Se la modelo intencas labori kun pli da lingvoj, ĝi devas koncentriĝi je trejnado pli pri bildoj kun ne-anglaj priskriboj. Alie, uzantoj en Kazaĥio daŭre ricevos bildojn de manĝaĵo anstataŭ virino, kaj malajala-parolantoj ricevos bildojn de naturo. La rusa-bazita figuraĵo estas klare seksigita iel. La indonezia bildo prezentas plurajn knabinojn sidantajn kaj la ĉeĥa bildo gajnas la premion de originaleco kun kruĉo da oleo fuŝinte la tutan scenon. Bildoj surbaze de la simpligita ĉina estas timigaj.
Kompreneble, ni ne povas aserti surbaze de tio, ke OpenAI estas rasisma. Tio kion ni povas vidi ĉi tie estas, ke ĝi ankoraŭ ne ricevis sufiĉe da datumoj en la lingvoj krom la angla. Ni ne scias ĉu ĝi restos tiel, sed ni forte malrekomendas tion.