Tech

ICLR 2024 — Шилдэг баримт бичиг, яриа (Benchmarks, Reasoning & Agents) — ft. Graham Neubig, Aman Sanger, Moritz Hardt)

Бидний илтгэгчдийн хоёр дахь давалгаа AI инженер дэлхийн үзэсгэлэн байсан зарласан ! Чуулганд Платинум/Алт/Мөнгөн ивээн тэтгэгчид болон Эрт шувууны тасалбарууд зарагдсан! Манайхыг үзнэ үү Майкрософт анги Дэлгэрэнгүй мэдээлэл авах болон одоо худалдаж аваарай кодтой ХОЛБООТОЙ .

Энэ анги нь шууд бидний 2-р хэсэг юм ICLR 2024 1-р хэсэг , тиймээс өөр зүйл нуршилгүйгээр бид зүгээр л үүнийг хийх болно!

Цагийн тэмдэг

[00:03:43] Хэсэг А: Кодын засвар ба хамгаалагдсан хязгаарлагдмал орчин, OpenDevin, болон Academia vs Industry - ft. Graham Neubig, Aman Sanger

[00:07:44] WebArena
[00:18:45] Сотопи
[00:24:00] Гүйцэтгэлийг сайжруулах код засварлах
[00:29:39] OpenDevin
[00:47:40] Аж үйлдвэр, академи

[01:05:29] Б хэсэг: Жишиг

[01:05:52] SWEBench
[01:17:05] SWEBench/SWEAgent ярилцлага
[01:27:40] Өгөгдлийн бохирдлыг илрүүлэх
[01:39:20] GAIA жишиг
[01:49:18] Мориц Харт - Жишиг тэмдгийн шинжлэх ухаан

[02:36:32] С хэсэг: Үндэслэл ба сургалтын дараах

[02:37:41] Өөрийгөө хамгаалах: Өөрийгөө эргэцүүлэн бодох замаар олж авах, бий болгох, шүүмжилж сурах нь
[02:51:00] Алхам алхмаар баталгаажуулцгаая
[02:57:04] Ноам Браун
[03:07:43] Лилиан Вэн - Аюулгүй AGI руу
[03:36:56] Төлөвлөлт, урт контекст ойлголт, хөтөлбөрийн синтез бүхий бодит ертөнцийн вэб агент
[03:48:43] MetaGPT: Олон агентлагийн хамтын ажиллагааны тогтолцоонд зориулсан мета програмчлал

[04:00:51] Урамшуулал: LLM-ийн чадавхийн талаархи мэдэгдэхүйц холбогдох баримтууд

А хэсэг: Код засварлах, хамгаалагдсан хязгаарлагдмал орчин, OpenDevin, Academia vs Industry - ft. Graham Neubig, Aman Sanger нар

Зочид
- Грэм Нойбиг
- Аман Сангер - Өмнөх зочин болон NeurIPS-ийн найз !
WebArena
Сотопи (гэрэлтүүлгийн цаас, вэб сайт )
Сурах гүйцэтгэл-шинэчлэх код засварлах
OpenDevin
- Junyang Opendevin
- Морф лаборатори , Жесси Хан
- SWE-Bench
- SWE-Агент
- Аман шүүрдэх талаар жиргэжээ
- LiteLLM
- Livecodebench
үндэслэл гаргахад кодын үүрэг
- Кодын хэлний загварууд нь цөөн тооны нийтлэг ойлголттой суралцагчид юм
Аж үйлдвэр ба академи
- матриошка суулгацын үйл явдал
бусад чиглэлүүд
- Хязгааргүй дүрэмт хувцас

Хэсэг А цагийн тэмдэг

[00:00:00] Зочдод зориулсан танилцуулга ба подкастын гэнэтийн мөн чанар
[00:00:45] Грахамын Япон дахь туршлага ба NLP заах руу шилжсэн
[00:01:25] NLP курсын оюутнуудад сайн туршлага юу бүрдүүлдэг талаар ярилцах
[00:02:22] Нграм хэлний загвар гэх мэт хуучин NLP аргуудын хамаарал ба заах
[00:03:38] Таамаглалын код тайлах ба Ngram загваруудын эргэн ирэлт
[00:04:16] WebArena болон Zotopia төслүүдийн танилцуулга
[00:05:19] WebArena төсөл болон жишигт гүнзгий шумбах
[00:08:17] GPT-4 ашиглан WebArena дахь гүйцэтгэлийг сайжруулах
[00:09:39] ВэбАренагийн даалгавар ба үнэлгээний сорилтууд дээрх хүний гүйцэтгэл
[00:11:04] WebArena-ийн дагаж мөрдөх ажил ба Вэб үзэхэд жишиг болгон анхаарлаа хандуулаарай.
[00:12:11] Шууд харилцан үйлчлэл ба вэбд суурилсан даалгаварт API ашиглах
[00:13:29] WebArena-д зориулсан үндсэн загваруудын сорилтууд ба харааны загваруудын боломж
[00:15:33] Зоотопийн танилцуулга ба хэлний загвартай нийгмийн харилцааг судлах
[00:16:29] Зоотопи дахь нийгмийн байдлын янз бүрийн төрлүүд
[00:17:34] Нийгмийн загварчлал дахь хэлний загваруудын үнэлгээ
[00:20:41] Гүйцэтгэлийг сайжруулах код засварлах төслийн танилцуулга
[00:26:28] Кодлох агентуудын DevIn ба ирээдүйн талаарх хэлэлцүүлэг
[00:32:01] Кодлох агентуудын төлөвлөлт ба OpenDevon-ийн хөгжил
[00:38:34] Том хэлний загваруудын контекст дэх академийн өөрчлөгдөж буй үүрэг
[00:44:44] Аж үйлдвэр, академийн хамтын ажиллагааны өөрчлөгдөж буй мөн чанар
[00:54:07] NLP курсын сургалтын хөтөлбөр болон том хэлний загваруудын тухай заах тухай шинэчлэлт
[01:00:40] Үйл ажиллагааны дуудлага: OpenDevon болон Нээлттэй эхийн хиймэл оюун ухааны төслүүдэд оруулсан хувь нэмэр
[01:01:56] Код үүсгэх, туслах кодчилолд гүйцэтгэх үүргийн төлөө Курсорт ажилд авах
[01:02:12] Хиймэл оюун ухааны инженерийн бага хурлыг сурталчлах

Б хэсэг: Жишиг тэмдэг

Карлос Хименез ба Жон Ян (Принстон) нар: SWE-bench: Хэлний загварууд Github-ийн бодит ертөнцийн асуудлыг шийдэж чадах уу? ( ICLR Oral , Цаас , вэб сайт )
- "Бид GitHub-ийн бодит асуудлууд болон холбогдох 12 алдартай Python агуулахын татан авалтын хүсэлтээс үүдэлтэй 2294 програм хангамжийн инженерийн асуудлаас бүрдсэн үнэлгээний тогтолцоог SWE-bench-ийг танилцуулж байна.
  
  Шийдвэрлэх асуудлын тайлбарын хамт кодын баазыг харгалзан хэлний загвар нь асуудлыг шийдвэрлэхийн тулд кодын суурийг засварлах үүрэгтэй. SWE-ийн асуудлыг шийдвэрлэхийн тулд олон функц, анги, тэр ч байтугай файлын өөрчлөлтийг нэгэн зэрэг ойлгож, зохицуулахыг шаарддаг бөгөөд загваруудыг гүйцэтгэлийн орчинтой харьцаж, маш урт контекстийг боловсруулж, уламжлалт код үүсгэх даалгавраас хол давсан нарийн төвөгтэй үндэслэлийг гүйцэтгэхийг шаарддаг.
  
  Бидний үнэлгээнээс харахад хамгийн сүүлийн үеийн өмчийн загварууд болон манай нарийн тохируулсан загвар SWE-Llama хоёулаа зөвхөн хамгийн энгийн асуудлыг шийдэж чадна. Хамгийн сайн гүйцэтгэлтэй загвар болох Claude 2 нь асуудлын ердөө 1.96% -ийг шийдэж чаддаг. . SWE вандан сандал дээрх дэвшил нь илүү практик, ухаалаг, бие даасан LM-д хүрэх алхмуудыг илэрхийлдэг."
Йонатан Орен нар (Стэнфорд) : Black-Box хэлний загваруудад туршилтын багцын бохирдлыг нотлох ( ICLR Oral , цаас , Аман шүүрдэх бохирдлын талаар жиргэжээ )
- "Бид үүнийг харуулж байна туршилтын багцын бохирдлын баталгаатай баталгааг өгөх боломжтой урьдчилсан мэдээлэл эсвэл загварын жинд хандах боломжгүй хэлний загварт. Өгөгдлийн бохирдол байхгүй үед солилцох жишиг үзүүлэлтийн бүх захиалга ижил магадлалтай байх ёстой гэдгийг бидний арга барил ашигладаг. Үүний эсрэгээр, Хэлний загварууд жишээ дарааллыг цээжлэх хандлагатай байгаа нь бохирдсон хэлний загвар нь зарим каноник дарааллыг бусдаас хамаагүй илүү магадлалтай гэж үздэг. . Манай туршилтын стандарт өгөгдлийн багц нь жишээнүүдийг хольсны дараа магадлалаас хамаагүй өндөр байх үед бохирдож болзошгүйг харуулж байна.
- Бид үүнийг харуулж байна Манай процедур нь хүнд хэцүү нөхцөл байдалд туршилтын багц бохирдлыг найдвартай нотлох хангалттай мэдрэмтгий байдаг , үүнд 1.4 тэрбум параметрийн жижиг загварууд, ердөө 1000 жишээ бүхий жижиг туршилтын багцууд, бэлтгэл сургуулилтад хэдхэн удаа гарч ирдэг өгөгдлийн багцууд багтана."
- Гайхалтай баримт бичгийг дурдлаа : "Хяналттай сургалтын мэдээллийн багцыг LLM сургалтанд оруулсан эсэхийг шалгах энгийн хэрнээ гоёмсог арга."
Томас Сциалом (Meta AI-FAIR w/ Янн ЛеКун ) : GAIA: AI-ийн ерөнхий туслахуудад зориулсан жишиг ( цаас )
- "Бид хиймэл оюун ухааны ерөнхий туслахуудын жишиг болох GAIA-г танилцуулж байгаа бөгөөд энэ нь шийдэгдвэл хиймэл оюун ухааны судалгааны чухал үе шат болно. GAIA нь үндэслэл, олон горимтой харьцах, вэб үзэх, ерөнхийдөө багаж хэрэгслийн ашиглалтын ур чадвар зэрэг үндсэн чадварыг шаарддаг бодит ертөнцийн асуултуудыг санал болгодог.
- GAIA асуултууд нь хүмүүсийн хувьд үзэл баримтлалын хувьд энгийн боловч хамгийн дэвшилтэт хиймэл оюун ухаанд хэцүү байдаг: Судалгаанд оролцогчид залгаасуудаар тоноглогдсон GPT-4-ийн хувьд 92%, 15% -ийг авдаг болохыг бид харуулж байна. .
- GAIA-ийн философи нь хүний хувьд улам бүр хэцүү байгаа ажлуудыг чиглүүлэхийг санал болгож буй хиймэл оюун ухааны жишиг үзүүлэлтүүдийн өнөөгийн чиг хандлагаас хол байна. Хиймэл ерөнхий оюун ухаан (AGI) бий болох нь системийн чадавхиас шалтгаална гэж бид үзэж байна. дундаж хүнийхтэй ижил бат бөх чанарыг харуулдаг ийм асуултууд дээр. GAIA-ийн аргачлалыг ашиглан бид 466 асуулт, тэдгээрийн хариултыг боловсруулдаг.
Мортиз Хардт (Макс Планкийн хүрээлэн) : Шинээр гарч ирж буй жишиг үзүүлэлтүүдийн шинжлэх ухаан ( ICLR урсгал )
- ' Жишиг үзүүлэлтүүд нь машин сургалтын нийгэмлэгийг нэгтгэдэг гол чулуу юм. 1980-аад оноос хойш судалгааны парадигм болж өсөж байгаа тул бид тэдэнтэй хийсэн зүйл их байгаа ч тэдний талаар бага зэрэг мэддэг. Энэ ярианд би сонгогдсон эмпирик болон онолын ажиглалтаар дамжуулан шинээр гарч ирж буй жишиг шинжлэх ухааны үндсийг судлах болно. Тодруулбал, бид гүйцэтгэх үүргийн талаар ярилцах болно. тайлбарлагчийн алдаа, загварын зэрэглэлийн гадаад хүчин төгөлдөр байдал, олон ажлын жишиг үзүүлэлтүүдийн амлалт . Тохиолдол бүрийн үр дүн нь уламжлалт мэргэн ухааныг сорьж, жишиг үнэлгээний шинжлэх ухааныг хөгжүүлэхийн ач тусыг онцолж байна."

С хэсэг: Үндэслэл ба сургалтын дараах

Акари Асай (UW) нар: Өөрийгөө хамгаалах: Өөрийгөө эргэцүүлэн бодох замаар олж авах, бий болгох, шүүмжилж сурах ( ICLR аман , вэб сайт )
- (Муу RAG хэрэгжүүлэлтүүд) олж авах шаардлагатай эсэх, эсвэл ишлэлүүд хамааралтай эсэхээс үл хамааран тодорхой тооны сэргээсэн хэсгүүдийг ялгаварлан авч, нэгтгэх нь LM-ийн олон талт байдлыг бууруулдаг эсвэл ашиггүй хариу үйлдэл үзүүлэхэд хүргэдэг.
- Бид нэртэй шинэ тогтолцоог танилцуулж байна Өөрийгөө эргэцүүлэн бодох чадварыг нэмэгдүүлэх үе (Өөрийгөө-RAG) Энэ нь олж авах, өөрийгөө эргэцүүлэн бодох замаар LM-ийн чанар, бодит байдлыг сайжруулдаг.
- Манай хүрээ нь эрэлт хэрэгцээний дагуу хэсгүүдийг дасан зохицох чадвартай нэг дур зоргоороо LM-ийг сургаж, тусгай жетон ашиглан олж авсан хэсгүүд болон түүний үеийнхэнд тусгаж, тусгадаг. тусгал жетон . Тусгалын жетон үүсгэх нь LM-ийг дүгнэлтийн үе шатанд хянах боломжтой болгож, зан төлөвөө янз бүрийн даалгаврын шаардлагад нийцүүлэх боломжийг олгодог.
- Self-RAG (7B ба 13B параметрүүд) нь Open-domain QA дээр ChatGPT болон олж авах сайжруулсан Llama2-чат, үндэслэл, баримтыг шалгах ажлуудаас илүү гарсан бөгөөд эдгээртэй харьцуулахад урт хугацааны үеийнхэнд бодит байдал, ишлэлийн нарийвчлалыг сайжруулахад ихээхэн ашиг тусыг харуулж байна. эдгээр загварууд.

Хантер Лайтман (Нээлттэй): Алхам алхмаар баталгаажуулцгаая ( цаас )
- “Орчин үеийн загварууд хүртэл логик алдаа гаргадаг хэвээр байна. Илүү найдвартай загваруудыг сургахын тулд бид аль алинд нь хандаж болно. үр дүнгийн хяналт , эцсийн үр дүнгийн талаархи санал хүсэлтийг өгдөг, эсвэл үйл явцын хяналт , энэ нь завсрын үндэслэлийн алхам бүрт санал хүсэлтийг өгдөг.
- Үүнийг олж мэдээд бид өөрсдөө мөрдөн байцаалт явуулдаг үйл явцын хяналт нь сорилттой MATH өгөгдлийн багцаас асуудлыг шийдвэрлэх сургалтын загваруудын үр дүнгийн хяналтаас хамаагүй илүү байдаг. Манай үйл явцын хяналттай загвар нь асуудлын 78%-ийг MATH тестийн багцын төлөөллийн дэд багцаас шийддэг. Нэмж дурдахад идэвхтэй суралцах нь үйл явцын хяналтын үр нөлөөг ихээхэн сайжруулдаг болохыг бид харуулж байна.
- Холбогдох судалгааг дэмжихийн тулд, Мөн бид PRM800K буюу 800,000 шаталсан түвшний хүний санал хүсэлтийн шошгоны бүрэн мэдээллийн багцыг гаргасан. манай шилдэг шагналын загварыг сургадаг байсан.
- Ноам Браун - Семинар Шийдвэр гаргах ерөнхий загварууд
  - Хэлний загвараар тоон үндэслэлийн асуудлыг шийдвэрлэх (Минерва цаас)
  - Дээр жагсаасан/дэлгэцийн зураг авсан "Алхам алхмаар баталгаажуулцгаая" нийтлэлээс шууд авсан зарим графикийг тайлбарлав.
    
    .
Лилиан Вэн (Нээлттэй) - Аюулгүй AGI руу ( ICLR яриа )
- OpenAI Model Spec
- OpenAI сургалтын шатлал: Зааварчилгааны шатлал: Давуу эрхтэй зааварчилгааг эрэмбэлэхийн тулд LLM-г сургах

D хэсэг: Агент системүүд

Izzeddin Gur (Google DeepMind) : Төлөвлөлт, урт контекст ойлголт, хөтөлбөрийн синтез бүхий бодит ертөнцийн вэб агент ( ICLR аман , цаас )
- Бодит ертөнцийн вэбсайтууд дээрх [агент] гүйцэтгэл нь (1) нээлттэй домэйн, (2) хязгаарлагдмал контекст урт, (3) HTML дээр индуктив хазайлт байхгүй зэргээс болж хохирсоор байна.
- Бид танилцуулж байна WebAgent нь LLM-д суурилсан агент бөгөөд байгалийн хэлний зааврын дагуу бодит вэбсайт дээрх даалгавруудыг гүйцэтгэхийн тулд өөрийн туршлагаас суралцдаг.
- WebAgent зааварчилгааг задлах замаар урьдчилан төлөвлөж байна каноник дэд заавар, урт HTML баримт бичгүүдийг нэгтгэн харуулав даалгавартай холбоотой хэсгүүд болон Python програмуудаар дамжуулан вэбсайтууд дээр ажилладаг тэдгээрээс үүссэн.
- Бид WebAgent-ийг зохион бүтээдэг Flan-U-PaLM нь үндэслэлтэй код үүсгэхэд зориулагдсан ба HTML-T5, урт HTML баримт бичигт зориулсан шинэ урьдчилан бэлтгэгдсэн LLMs төлөвлөлт, нэгтгэн дүгнэхийн тулд орон нутгийн болон дэлхийн анхаарлын механизм, урт хугацааны зорилтуудыг хослуулан ашиглах.
- Бидний модульчлагдсан жор нь бодит вэбсайт дээрх амжилтыг 50 гаруй хувиар сайжруулдаг бөгөөд HTML-T5 нь HTML-ийг ойлгох янз бүрийн даалгавруудыг шийдвэрлэх хамгийн сайн загвар гэдгийг бид эмпирик байдлаар харуулж байна; MiniWoB вэб автоматжуулалтын жишиг дээрх өмнөх аргаас 18.7%-иар өндөр амжилтанд хүрсэн ба Mind2Web дээрх SoTA гүйцэтгэл нь офлайн даалгавар төлөвлөлтийн үнэлгээ юм.
Сируи Хонг (Гүн ухаан) : MetaGPT: Олон агентлагийн хамтын ажиллагааны тогтолцоонд зориулсан мета програмчлал ( ICLR Oral , Цаас )
- Бид LLM-д суурилсан олон агентлагийн хамтын ажиллагаанд хүний үр ашигтай ажлын урсгалыг багтаасан мета програмчлалын шинэлэг тогтолцоо болох MetaGPT-ийг танилцуулж байна. MetaGPT нь стандартчилагдсан үйл ажиллагааны журмыг (SOPs) илүү оновчтой ажлын урсгалд зориулж шуурхай дарааллаар кодлодог бөгөөд ингэснээр хүнтэй төстэй домэйн туршлагатай агентуудад завсрын үр дүнг шалгаж, алдааг багасгах боломжийг олгодог. MetaGPT нь угсралтын шугамын парадигмыг ашиглан янз бүрийн агентуудад янз бүрийн үүрэг даалгавар өгч, нарийн төвөгтэй ажлуудыг хамтран ажилладаг олон агентуудыг хамарсан дэд даалгавар болгон үр дүнтэй задалдаг.

Урамшуулал: LLM чадавхийн талаархи мэдэгдэхүйц холбогдох баримтууд

Үүнд бидний дээр дурдсаныг хүссэн боловч чадаагүй олон баримт бичиг багтсан болно.

Лукас Берглунд (Вандербилт) нар : Урвуу хараал: "A is B" дээр бэлтгэгдсэн LLM нь "B is A"-г сурч чадахгүй байна ( ICLR зурагт хуудас , цаас , Github )
- Бид автомат регрессив том хэлний загваруудад (LLMs) ерөнхийлөн дүгнэх гайхалтай бүтэлгүйтлийг илчилж байна. Хэрэв загварыг "А нь В" хэлбэрийн өгүүлбэр дээр сургасан бол "Б бол А" гэсэн урвуу чиглэлд автоматаар ерөнхийлөхгүй. Энэ бол урвуу хараал юм.
- Урвуу хараал нь загварын хэмжээ болон загвар гэр бүлүүдэд хүчтэй бөгөөд өгөгдлийг нэмэгдүүлэх замаар арилдаггүй. Мөн бид ChatGPT (GPT-3.5 ба GPT-4) -ийг "Том Крузын ээж гэж хэн бэ?" [А: Мэри Ли Пфайфер]''' ба "Мэри Ли Пфайферын хүү хэн бэ?'. GPT-4 нь өмнөх 79\% гэх мэт асуултуудад зөв хариулдаг бол сүүлийнх нь 33\% байна.

Омар Хаттаб (Стэнфорд) : DSPy: Тунхаглалын хэлний загварыг орчин үеийн дамжуулах хоолой болгон эмхэтгэх ( ICLR анхаарлын төвд байгаа зурагт хуудас , GitHub )
- Криста Опсахл-Онг танилцуулав
- "Одоо байгаа LM дамжуулах хоолойг ихэвчлэн хатуу кодлогдсон "шуурхай загварууд", өөрөөр хэлбэл туршилт, алдаагаар илрүүлсэн урт утсыг ашиглан хэрэгжүүлдэг. LM дамжуулах хоолойг хөгжүүлэх, оновчтой болгох илүү системтэй арга барилын талаар бид танилцуулж байна DSPy нь LM дамжуулах хоолойг текст хувиргах график болгон хийсвэрлэдэг програмчлалын загвар юм , эсвэл тунхаглалын модулиудаар дамжуулан LM-г дууддаг зайлшгүй тооцооллын графикууд.
- DSPy модулиудыг параметржүүлсэн бөгөөд энэ нь өдөөх, нарийн тохируулах, нэмэгдүүлэх, сэтгэх арга техникийг хэрхэн ашиглах талаар сурах боломжтой гэсэн үг юм.
- Бид хөрвүүлэгчийг зохион бүтээдэг өгөгдсөн хэмжигдэхүүнийг нэмэгдүүлэхийн тулд аливаа DSPy хоолойг оновчтой болгох , жагсаал цуглаан зохион байгуулах, цуглуулах замаар.
- Бид хоёр кейс судалгаа хийж, товч DSPy програмууд нь математикийн үгийн асуудалтай холбоотой дамжуулах хоолойг илэрхийлж, оновчтой болгож, олон хоп хайлт хийх, нарийн төвөгтэй асуултуудад хариулах, агентын гогцоог хянах боломжтой болохыг харуулсан.
- Эмхэтгэснээс хойш хэдхэн минутын дотор DSPy нь GPT-3.5 болон Llama2-13b-chat-д зориулсан шинжээчдийн бүтээсэн жагсаалаас гадна бэлэн бус цөөн тооны өдөөлтөөс давсан дамжуулах хоолойг автоматаар үйлдвэрлэх боломжтой. Дээрээс нь 770M параметр T5 болон Llama2-13b- чат зэрэг харьцангуй жижиг LM-д зориулан эмхэтгэсэн DSPy програмууд нь GPT-3.5 гэх мэт том, өмчийн LM болон мэргэжилтнүүдийн бичсэн шуурхай сүлжээнд тулгуурласан олон арга барилтай өрсөлдөх чадвартай.