Cwantwmrun

CREDYD DELWEDD:

iStock

Dysgu atgyfnerthu gydag adborth dynol: Cywiro AI

Mae dysgu atgyfnerthu gydag adborth dynol (RLHF) yn pontio'r bwlch rhwng technoleg a gwerthoedd dynol.

Awdur:
enw awdur
Rhagolwg Quantumrun
Mawrth 7, 2024

Crynodeb mewnwelediad

Mae dysgu atgyfnerthu o adborth dynol (RLHF) yn ddull hyfforddi deallusrwydd artiffisial (AI) sy'n mireinio modelau gan ddefnyddio mewnbwn dynol i'w halinio'n well â bwriadau dynol. Mae'r dull hwn yn cynnwys creu model gwobrwyo o adborth dynol i wella perfformiad modelau sydd wedi'u hyfforddi ymlaen llaw. Wrth addo AI cyfrifol, mae RLHF yn wynebu gwallau posibl a'r angen am ganllawiau moesegol.

Dysgu atgyfnerthu gyda chyd-destun adborth dynol

Mae dysgu atgyfnerthu o adborth dynol (RLHF) yn ddull ar gyfer hyfforddi modelau AI sy'n anelu at eu halinio'n agosach â bwriadau a dewisiadau dynol. Mae RLHF yn cyfuno dysgu atgyfnerthu gyda mewnbwn dynol i fireinio modelau dysgu peiriant (ML). Mae'r dull hwn yn wahanol i ddysgu dan oruchwyliaeth a heb oruchwyliaeth ac mae'n cael cryn sylw, yn enwedig ar ôl i OpenAI ei ddefnyddio i hyfforddi modelau fel InstructGPT a ChatGPT.

Mae'r cysyniad craidd y tu ôl i RLHF yn cynnwys tri chyfnod allweddol. Yn gyntaf, dewisir model sydd wedi’i hyfforddi ymlaen llaw fel y prif fodel, sy’n hanfodol ar gyfer modelau iaith oherwydd y data helaeth sydd ei angen ar gyfer hyfforddiant. Yn ail, mae model gwobrwyo ar wahân yn cael ei greu, sy'n cael ei hyfforddi gan ddefnyddio mewnbynnau dynol (cyflwynir allbynnau a gynhyrchir gan fodel i bobl a gofynnir iddynt eu graddio yn seiliedig ar ansawdd). Mae'r wybodaeth graddio hon yn cael ei thrawsnewid yn system sgorio, y mae'r model gwobrwyo yn ei defnyddio i werthuso perfformiad y model cynradd. Yn y trydydd cam, mae'r model gwobrwyo yn asesu allbynnau'r model cynradd ac yn rhoi sgôr ansawdd. Yna mae'r prif fodel yn defnyddio'r adborth hwn i wella ei berfformiad yn y dyfodol.

Er bod RLHF yn addo gwella aliniad AI â bwriad dynol, gall ymatebion model fod yn anghywir neu'n wenwynig hyd yn oed ar ôl eu mireinio. Yn ogystal, mae cyfranogiad dynol yn gymharol araf a drud o gymharu â dysgu heb oruchwyliaeth. Mae anghytundebau ymhlith gwerthuswyr dynol a thueddiadau posibl mewn modelau gwobrwyo hefyd yn bryderon sylweddol. Serch hynny, er gwaethaf y cyfyngiadau hyn, mae ymchwil a datblygiad pellach yn y maes hwn yn debygol o wneud modelau AI yn fwy diogel, yn fwy dibynadwy ac yn fwy buddiol i ddefnyddwyr.

Effaith aflonyddgar

Un o oblygiadau arwyddocaol RLFH yw ei botensial i feithrin systemau AI mwy cyfrifol a moesegol. Gan fod RLHF yn galluogi modelau i alinio'n well â gwerthoedd a bwriad dynol, gall liniaru'r risgiau sy'n gysylltiedig â chynnwys a gynhyrchir gan AI a allai fod yn niweidiol, yn rhagfarnllyd neu'n anghywir. Efallai y bydd angen i lywodraethau a chyrff rheoleiddio sefydlu canllawiau a safonau ar gyfer defnyddio RLHF mewn systemau AI er mwyn sicrhau eu bod yn cael eu defnyddio’n foesegol.

I fusnesau, mae RLHF yn gyfle gwerthfawr i wella profiadau cwsmeriaid a gwneud y gorau o weithrediadau. Gall cwmnïau ddefnyddio RLHF i ddatblygu cynhyrchion a gwasanaethau sy'n cael eu gyrru gan AI sy'n deall ac yn darparu ar gyfer dewisiadau cwsmeriaid yn well. Er enghraifft, gall argymhellion cynnyrch personol ac ymgyrchoedd marchnata wedi'u teilwra ddod yn fwy cywir, gan arwain yn y pen draw at fwy o foddhad cwsmeriaid a chyfraddau trosi uwch. Ar ben hynny, gall RLHF hefyd symleiddio prosesau mewnol, megis rheoli'r gadwyn gyflenwi a dyrannu adnoddau, trwy wneud y gorau o benderfyniadau yn seiliedig ar ddata amser real ac adborth defnyddwyr.

Ym maes gofal iechyd, gallai argymhellion diagnostig a thriniaeth wedi'u pweru gan AI ddod yn fwy dibynadwy a chanolog i'r claf. Yn ogystal, gellir mireinio profiadau dysgu personol ymhellach mewn addysg, gan sicrhau bod myfyrwyr yn cael cymorth wedi'i deilwra i wneud y gorau o'u potensial academaidd. Mae’n bosibl y bydd angen i lywodraethau fuddsoddi mewn rhaglenni addysg a hyfforddiant AI er mwyn rhoi’r sgiliau angenrheidiol i’r gweithlu harneisio buddion RLHF.

Goblygiadau dysgu atgyfnerthu gydag adborth dynol

Gall goblygiadau ehangach RLHF gynnwys:

Mwy o deyrngarwch ac ymgysylltiad cwsmeriaid, wrth i gynhyrchion a gwasanaethau a yrrir gan AI ddod yn fwy cyfarwydd â dewisiadau unigol.
Creu mwy o brofiadau addysgol wedi'u teilwra, gan helpu myfyrwyr i gyrraedd eu llawn botensial a lleihau bylchau cyflawniad academaidd.
Mae’r farchnad lafur yn cael ei thrawsnewid wrth i awtomeiddio a yrrir gan RLHF symleiddio tasgau arferol, gan greu cyfleoedd o bosibl i weithwyr ganolbwyntio ar rolau swyddi mwy creadigol a chymhleth.
Gwell prosesu iaith naturiol trwy RLHF yn arwain at nodweddion hygyrchedd gwell, sydd o fudd i unigolion ag anableddau a hyrwyddo mwy o gynwysoldeb mewn cyfathrebu digidol.
Defnyddio RLHF mewn monitro amgylcheddol a rheoli adnoddau gan alluogi ymdrechion cadwraeth mwy effeithlon, lleihau gwastraff a chefnogi nodau cynaliadwyedd.
RLHF mewn systemau argymell a chreu cynnwys gan arwain at dirwedd cyfryngau mwy personol, gan gynnig cynnwys i ddefnyddwyr sy'n cyd-fynd â'u diddordebau a'u gwerthoedd.
Mae democrateiddio AI trwy RLHF yn grymuso cwmnïau llai a busnesau newydd i harneisio buddion technoleg AI, gan feithrin arloesedd a chystadleuaeth yn y diwydiant technoleg.