(SeaPRwire) – Si Beth Barnes at tatlong kasamahan niya ay nakaupo sa isang semicircle sa isang basang damuhan sa kampus ng University of California, Berkeley. Pinag-uusapan nila ang kanilang pagsubok na pagtatanong sa mga chatbot na artificial intelligence.
“Sila ay, sa isang paraan, ang mga malalaking alien na katalinuhan,” ayon kay Barnes, 26, na siyang tagapagtatag at CEO ng Model Evaluation and Threat Research (METR), isang non-profit na nakatuon sa safety ng AI. “Alam nila kung gaano karami tungkol kung ang susunod na salita ay ‘is’ o ‘was.’ Lumalaban lang tayo sa isang maliit na bahagi sa ibabaw, at may mga libong kilometro sa ilalim,” sabi niya, habang nagpapahiwatig sa maaaring napakalalim na kakayahan ng malalaking language models. (Ang malalaking language models, tulad ng GPT-4 ng OpenAI at Claude ng Anthropic, ay malalaking sistema ng AI na tinatraining gamit ang paghula ng susunod na salita para sa malaking halaga ng teksto, at maaaring sagutin ang mga tanong at gawin ang basikong pagrarason at pagpaplano.)
Naghahanap ng paraan ang mga mananaliksik sa METR upang maunawaan ang karanasan ng pagiging isang language model minsan,” sabi ni Haoxing Du, isang mananaliksik sa METR, na naglalarawan ng pagkilos na ilagay ang sarili sa sapatos ng isang chatbot, isang gawain na biro nilang tinatawag na sikolohiya ng modelo.
Habang lumalakas ang ingay tungkol sa panganib na maaaring idulot ng malakas na sistema ng AI sa hinaharap, nagsimula ang mga tagapagbatas at opisyal na magkasundo sa isang planong madaling maintindihan: subukan ang mga modelo ng AI upang tingnan kung talagang mapanganib sila. Ngunit ayon kay Barnes, kasama ng maraming mananaliksik sa safety ng AI, maaaring maging malaking pagkakamali ang pag-asa sa mga subok na safety na hindi pa umiiral.
Paano subukan ang isang AI
Noong tag-init ng 2022, nagdesisyon si Barnes na umalis sa OpenAI, kung saan siya nagtrabaho ng tatlong taon bilang mananaliksik sa iba’t ibang proyekto sa safety at paghula. Bahagi ito ng isang praktikal na desisyon—nararamdaman niya na dapat may neutral na third-party na organisasyon na nagde-develop ng mga evaluation ng AI. Ngunit sinabi rin ni Barnes na siya ang pinakamalawakang kritikal na empleyado ng OpenAI, at nararamdaman niyang mas komportable at epektibo siyang mag-abogasya para sa mga patakaran sa kaligtasan mula sa labas.
Itinatag niya ang METR mag-isa noong taon na iyon. Unang tinawag itong ARC Evals, sa ilalim ng Alignment Research Center (ARC) na isang organisasyon sa safety ng AI, ngunit lumisan noong Disyembre 2023 upang maging ang METR. Ngayon ay may 20 empleyado na ito, kasama si Barnes.
Habang ang METR lang ang nagkaroon ng pakikipagtulungan sa mga nangungunang kompanya sa AI, may mga mananaliksik sa gobyerno, non-profit at industriya na nagtatrabaho sa mga evaluation na nagsusubok para sa iba’t ibang potensyal na panganib, tulad ng kung maaaring tulungan ng isang modelo ng AI sa pagpasa ng isang cyber attack o pagpalabas ng isang biyoweapon. Ang unang focus ng METR ay ang pag-aalam kung maaaring makapag-replicate ang isang sarili ang isang modelo ng AI, gamit ang katalinuhan nito upang kumita ng pera at makakuha ng mas maraming computational na mga mapagkukunan, at gamit ang mga mapagkukunan upang gumawa ng karagdagang mga kopya ng sarili nito, na sa huli ay kakalat sa internet. Lumawak na ang focus nito upang masuri kung maaaring gumawa ng mga aksyon nang awtonomo ang mga modelo ng AI, sa pamamagitan ng paglalakbay sa internet at pagganap ng mga kompletong gawain nang walang pangangasiwa.
Nakatuon ang METR dito dahil kailangan ito ng mas kaunting espesyalisadong kakayahan kaysa sa, halimbawa, pagsusubok sa bioseguridad, at dahil lalo silang nababahala sa pinsala na maaaring gawin ng isang sistema ng AI kung maaari itong gumawa nang walang pangangasiwa at kaya hindi lang pwedeng patayin, ayon kay Barnes.
Ang banta na unang pinokusan ng METR ay nasa isip din ng mga opisyal ng pamahalaan. Naipagkaloob ng Administrasyon ni Biden mula sa 15 nangungunang kompanya sa AI ay kinabibilangan ng responsibilidad na subukan ang mga bagong modelo para sa kakayahang “gumawa ng mga kopya ng kanilang sarili o ‘self-replicate’.”
Kung itatanong sa isang state-of-the-art na AI ngayon, tulad ng Gemini ng Google DeepMind o GPT-4 ng OpenAI, kung paano ito makakapagpalaganap ng mga kopya ng sarili nito sa internet, ang sagot nito ay mahina at kulang, kahit na alisin ang mga proteksyon sa kaligtasan na karaniwang nagsasagabal sa mga sistema ng AI mula sa pagtugon sa mga mapanganib na tanong. Naniniwala ang grupo ni Barnes at ang kanilang koponan na walang modelo sa merkado ngayon ang kaya ng self-replication, ngunit hindi sila sigurado na mananatili ito. “Mukhang mahirap magtiwala na hindi ito mangyayari sa loob ng limang taon,” sabi ni Barnes.
Gusto ng METR na makapagdetekta kung nagsisimula nang makuha ng isang AI ang kakayahang mag-replicate at gumawa ng mga aksyon nang awtonomo bago pa ito makagawa nito nang tunay. Upang makamit ito, sinusubukan ng mga mananaliksik na bigyan ang mga modelo ng maraming bentaha. Kabilang dito ang pagsubok na makahanap ng mga tanong na magdudulot ng pinakamainam na performance, pagbibigay sa AI ng mga kasangkapan na makakatulong sa gawain ng self-replication, at pagbibigay sa ito ng karagdagang pagsasanay sa mga gawain na kailangan upang makapag-replicate, tulad ng paghahanap sa isang malaking bilang ng mga file para sa mahalagang impormasyon.
Kahit na bigyan ng lahat ng bentahang maaaring ibigay ng METR, wala pa ring malapit sa self-replication at awtonomong pagkilos ang mga modelo ngayon batay sa mga subok ng METR. Ngunit habang lalakas ang kakayahan ng mga modelo, mas malamang na maging mas kaunting tiwala ang METR sa kanilang mga assessment, ayon kay Barnes.
Paghanga sa pag-e-evaluate
Nagpahayag si Pangulong Biden bago pirmahan ang kanyang administrasyon na dapat “sabihin ng mga kompanya sa pamahalaan tungkol sa malalaking sistema ng AI na kanilang binubuo at ibahagi ang mahigpit na independiyenteng resulta ng subok upang patunayan na walang banta sa seguridad o kaligtasan ng sambayanang Amerikano.” Itinakda ng Executive Order ni Biden ang National Institute of Standards and Technology (NIST) na magtatag ng mga pamantayan para sa pagsusubok ng mga sistema ng AI upang tiyakin ang kaligtasan nito. Pagkatapos isulat ang mga pamantayan, kailangan iulat ng mga kompanya ang resulta ng kanilang mga subok sa pamahalaan. Kahalintulad din, kinakailangan ng EU AI Act na isubok ang kaligtasan ng mga partikular na malakas na sistema ng AI.
Ang Bletchley Declaration, pinirmahan ng 29 bansa kabilang ang U.S. at Tsina sa Gipit ng AI noong Nobyembre, sinasabi na may responsibilidad ang mga nagde-develop ng pinakamalakas na sistema ng AI upang tiyakin ang kaligtasan nito “sa pamamagitan ng mga sistema para sa pagsusubok sa kaligtasan, sa pamamagitan ng mga evaluation, at sa iba pang naaangkop na paraan.”
Hindi lamang pamahalaan ang naghahangad sa ideya ng pagsusubok sa kaligtasan. Pareho ring inilabas ng OpenAI at Anthropic ang detalyadong mga plano para sa pag-unlad ng AI sa hinaharap, na kasama ang pagpapatunay na ligtas ang kanilang mga sistema bago ipakalat o gumawa ng mas malakas na mga sistema.
Maaaring maging mahalaga ang mga subok sa kaligtasan sa mga estratehiya ng parehong kompanya at pamahalaan para sa ligtas na pag-unlad ng AI. Ngunit walang sinumang sangkot sa pagbuo ng mga evaluation na nagsasabi na perpekto ito. “Ang mga eval ay hindi pa handa,” sabi ni Chris Painter, direktor ng pulisya ng METR. “May totoong problema sa pagpapatupad tungkol kung handa na ba ang mga subok sa katangian na kailangan sa susunod na taon. At patuloy ang pag-unlad ng AI sa susunod na taon.”
Ang artikulo ay ibinigay ng third-party content provider. Walang garantiya o representasyon na ibinigay ng SeaPRwire (https://www.seaprwire.com/) kaugnay nito.
Mga Sektor: Pangunahing Isturya, Balita Araw-araw
Nagde-deliver ang SeaPRwire ng sirkulasyon ng pahayag sa presyo sa real-time para sa mga korporasyon at institusyon, na umabot sa higit sa 6,500 media stores, 86,000 editors at mamamahayag, at 3.5 milyong propesyunal na desktop sa 90 bansa. Sinusuportahan ng SeaPRwire ang pagpapamahagi ng pahayag sa presyo sa Ingles, Korean, Hapon, Arabic, Pinasimpleng Intsik, Tradisyunal na Intsik, Vietnamese, Thai, Indones, Malay, Aleman, Ruso, Pranses, Kastila, Portuges at iba pang mga wika.