Tech

Gradient.ai сайтын Марк Хуантай хамт сая контекст LLM-ийг хэрхэн сургах вэ

<150 Early Bird тасалбар үлдсэн AI инженер дэлхийн үзэсгэлэн SF-д! Удахгүй үнэ өснө.

Өдөрт 4 зам, олон арван семинар/эпо сесс байдаг гэдгийг анхаарна уу; Шууд дамжуулалт энэ удаад агуулгын <30% -ийг цацах болно. Үндсэндээ хэрэв та алдахыг хүсэхгүй байгаа бол үнэхээр ирэх ёстой 2024 оны хамгийн их овоолсон илтгэгчийн жагсаалт/AI экспо шал .

Үнэгүй/хөнгөлөлт авах хүсэлт гаргах Олон талт байдлын хөтөлбөр болон Тэтгэлгийн тасалбар энд. Бид үүнийг бүх хиймэл оюун ухааны инженерүүдэд зориулсан техникийн эцсийн хурал болгоно гэж найдаж байна.

Яг жилийн өмнө бид зарласан контекстийн эхлэл=Хязгааргүй байдал Мозайк 84к токен контекст MPT-7B-ийн нээлтийн сургалтаа хийх үед.

Урт контекстийн товч түүх

Мэдээжийн хэрэг, бид тэр ангийг гаргахад Антропик эхний буугаар гарааны буугаар зөв буудсан 100к контекст цонх хилийн лабораторийн загвар, өндөглөдөг smol-хөгжүүлэгч болон бусад хайгуулууд. Сүүлийн 6 сарын хугацаанд тэмцэл (болон контекст урт) өөр нэг хэмжээний дарааллыг эрчимжүүлж, "Текст өргөтгөлийн кампанит ажил" бүлэг Дөрвөн дайн :

2023 оны 10-р сард Клодын 100,000 токен цонх нь SOTA хэвээр байсан (бид үүнийг одоо ч ашигладаг. Нууцлаг орон зайн шоуны тэмдэглэл өнөөдрийг хүртэл).
11-р сарын 6-нд OpenAI 128к контекст бүхий GPT-4 Turbo-г эхлүүлсэн .
Арваннэгдүгээр сарын 21-нд Антропик хариу буудсан Claude 2.1-ээс 200к жетон хүртэл сунгаж байна .
Хоёрдугаар сарын 15 ( хүн бүр бүх зүйлийг эхлүүлсэн өдөр ) Ихрийн ордны ээлж ирж, зарлав 1 сая токен контекст цонхтой анхны LLM .
2024 оны 5-р сард Google I/O дээр, Gemini 1.5 Pro 2 метрийн токен контекст цонхыг зарлалаа

Үүний зэрэгцээ нээлттэй эх сурвалж/академи нь аж үйлдвэрийн дэвшилтэт дэвшлийг дагаж мөрдөхийн тулд өөрийн тулалдаанд оролцох ёстой байв. Nous Research алдартай reddit тайлбарыг YaRN болгон хувиргасан , Лама 2 загваруудыг 128к контекст болгон өргөтгөх. Тиймээс лам 3 унахад нийгэмлэг бэлэн байсан бөгөөд хэдхэн долоо хоногийн дараа бид 4M+ контексттэй Llama3-тай болсон!

Жилийн өмнө бидэнд салбарын стандарт хэмжих арга үнэхээр байгаагүй контекст ашиглалт аль нь: LLM-ийг 1 сая жетоноор хогийн бус текст хийх нь техникийн хувьд сайн бөгөөд сайн, гэхдээ LLM нь тухайн урт контекст доторх мэдээллийг үнэхээр олж авч, анхаарал хандуулдаг гэдгийг та баталж чадах уу? ? Грег Камрадт үүнийг дэлгэрүүлсэн Хадлан дахь зүү Одоо шаардлагатай (хэрэв хангалтгүй бол) жишиг үзүүлэлт болсон график бөгөөд бид үүнийг нээлттэй эх сурвалжаас мөн шийдсэн:

сая жетон дээрх бараг хатуу ногоон өнгө нь ойлгомжгүй үндэслэлтэй

Өнөөдрийн зочин, Марк Хуан , үүсгэн байгуулагчдын нэг Төгсөгч , тэд аж ахуйн нэгжийн ажлын урсгал болон автоматжуулалтыг эрчимжүүлэх бүрэн стек AI платформыг барьж байна. Тэд мөн анхны Llama3-ийн 1M+ болон 4M+ контекст цонхны finetunes-ийн ард байгаа баг юм.

Урт контекст алгоритмууд: RoPE, ALiBi, Ring Attention

Байрлалын кодчилол (Ирэх зочин!) И Тай OG-г энхрийлэн дууддаг зүйлд байгаа оролтын дараалал дахь жетонуудын харьцангуй байрлалыг ойлгохыг загварт зөвшөөрнө үү. Ноам архитектур ." Гэхдээ хэрэв бид загварын контекстийн уртыг нэмэгдүүлэхийг хүсч байвал эдгээр кодчилолууд нь урт дараалал руу гоёмсог экстраполяци хийх шаардлагатай.

ALiBi , MPT гэх мэт загваруудад ашигладаг ( MPT-ийн тэргүүлэгч Жонатан Франкл, Абхинав нартай манай "Context=Infinity" ангийг үзнэ үү. ), энэ орон зайд хүрэх анхны аргуудын нэг байсан. Энэ нь контекст цонхыг ургах тусам сунгах боломжийг олгодог бөгөөд янз бүрийн байрлалын анхаарлын жингийн хоорондох шугаман бууралтын торгуулийг ашигладаг; Цаашид хоёр жетон байх тусам торгууль өндөр болно. Мэдээжийн хэрэг, энэ нь урт хугацааны туршид дэлхий нийтийн анхаарлыг татах шаардлагатай хэрэглээний тохиолдлуудад ажиллахгүй.

Сүүлийн үеийн архитектур, нарийн хийцүүдэд, RoPE (Rotary Position Embedding) кодчилол нь илүү түгээмэл хэрэглэгддэг бөгөөд Llama3 дээр үндэслэсэн зүйл юм. RoPE нь байрлалыг кодлохын тулд эргэлтийн матрицыг ашигладаг бөгөөд энэ нь урт дараалалд эмпирик байдлаар илүү сайн ажилладаг.

Gradient-ийн гол шинэлэг зүйл бол анхаарлаа төвлөрүүлэх явдал байв тета гиперпараметрийг тохируулах энэ нь эргэлтийн кодчиллын давтамжийг зохицуулдаг.

Аудио тэмдэглэл: Хэрэв та дэлгэрэнгүй мэдээлэл авахыг хүсвэл подкаст дээр 15:55 руу очно уу (эсвэл бичлэг рүү доош гүйлгэ!)

тета утгын хувьд бидний иш татсан блог нийтлэл

Контекст урт өсөхийн хэрээр тета-г сайтар нэмэгдүүлснээр тэд Llama3-ийг 1 сая жетон хүртэл, цаашлаад томруулж чадсан.

Байршлын суулгацыг өргөжүүлсний дараа анхаарлын квадрат нарийн төвөгтэй байдал, урт, урт дараалал нь загваруудын хурд болон масштабын чадварт хэрхэн нөлөөлдөг тухай асуудал байсаар байна. 1-4 сая контекст цонх руу ороход нэлээд их хэмжээний тооцоолол шаардлагатай тул үр ашиг чухал.

Бөгжний анхаарал GPU-ийн хооронд зэрэгцээ тооцоолол, харилцаа холбоог бий болгосноор GPU-ийн хэрэглээг сайжруулдаг өөр нэг " GPU үүлний үзэн яддаг нэг жижиг заль мэх" байв. Төгсөгч нь EasyContext номын сан нь анхных нь JAX-д байсан тул PyTorch дахь Ring Attention-ийн хэрэгжилт юм.

Тоног төхөөрөмжийн тогтмол нэгжээр дэмжигдсэн (>100x) өндөр контекст хэмжээг зүгээр л ваниллинаас цагираган анхаарал руу шилжүүлснээр анхаарна уу.

Урт контекст өгөгдөл: Сургалтын хөтөлбөрт суралцах ба дэвшилтэт өргөтгөл

-ийн хэрэглээ сургалтын хөтөлбөр сурах контекстийг өргөтгөх нь өөр шинэ арга байсан үед; Лама3-ыг эхнээс нь бүтэн 1 сая токен контекст дээр сургахаас илүүтэйгээр сургалтын явцад дарааллын уртыг аажмаар нэмэгдүүлсэн. Зөн совингийн хувьд энэ нь загварт урт контексттэй тэмцэхээсээ өмнө эхлээд богино контекстийг ашиглаж сурах боломжийг олгодог боловч урт контекст нөхцөл байдалд өгөгдөл улам бүр "зальтай" болсон тохиолдолд л ажиллана.

Тэдний ашигласан ерөнхий сургалтын өмнөх корпусын хувьд SlimPajama суурь болгон, өгөгдлийн олон янз байдлыг хянахын зэрэгцээ зорилтот уртад хүрэхийн тулд нэгтгэсэн бичвэрүүд. Жишээлбэл, сүүлийн хэдэн жетоныг анхаарч үзэх шаардлагатай өгөгдлийн багцууд нь холын зайн үндэслэлийг зааж чадахгүй. Үүнийг засахын тулд тэд GPT-4-тэй синтетик өгөгдлийг (манай хиймэл оюун ухааны дөрвөн дайны өөр нэг нь!) ашигласан бөгөөд мэдээллийн багцаа мэдээлэл дээр өргөжүүлэх эсвэл ишлэлүүдийг дахин илэрхийлэхэд түлхэц өгсөн. Энэ орон зайд бидний өмнө дурдсан өөр нэг баримт бичиг юм. "Вэбийг дахин тайлбарлах нь" .

Урт контекст жишиг: Зүүгээс цааш

Урт контекст нь дажгүй, гэхдээ энэ нь ажилладаг уу? Грегийн одоо алдартай "өвсөнд зүү" (NIAH) тест нь загвар өмсөгчдийн урт контекстэд суулгасан мэдээллийг гаргаж авах чадварыг хэмждэг бөгөөд энэ нь хүн бүрийн эхлүүлэхэд ашигладаг цэвэр стандарт юм, гэхдээ энэ нь бага зэрэг энгийн бөгөөд олон нийт үүнийг сунгах олон сонголтыг бий болгосон:

РУЛЕР : Төрөл бүрийн NIAH тестүүдээс гадна (нэг утга, олон утга гэх мэт) "хамгийн түгээмэл үгс", "хувьсах хяналт" гэх мэт зүйлсийг шалгадаг бөгөөд энэ нь ялангуяа кодчиллын хэрэглээний тохиолдлуудад маш их тустай байдаг.
LooGLE : Шинжлэх ухааны нийтлэл, Википедиагийн нийтлэл, кино, телевизийн скрипт гэсэн гурван үндсэн чиглэлд анхаарлаа хандуулдаг. "Цагийн хуваарь дахин эрэмбэлэх" нь тэдний жишигт сонирхолтой сорилт бөгөөд энэ нь загвараас текстэд эмх цэгцгүй болсон үйл явдлуудын цагийн хуваарийг бий болгохыг хүсдэг.
Хязгааргүй вандан сандал : Анх 2023 оны 11-р сард бүтээгдсэн бөгөөд ихэнх avg оролтын жетон даалгаврууд нь татаж авах, асуулт хариулт, код дибаг хийх зэрэг 100-200к жетон мужид байдаг.
ZeroSCROLLS : энэ нь хамт ирдэг олон нийтийн удирдагчдын зөвлөл хаана та загваруудын гүйцэтгэлийг харж болно, түүнчлэн Таны үзэж болох ажлууд санаа авах.

4M контекст хэмжээ нь гүйцэтгэлийн хувьд бүх зүйл нурж эхэлсэн хязгаар юм шиг санагдаж байсан нь үнэхээр гайхалтай юм!

Тэмдэглэл харуулах

Бүлгүүд

[00:00:01] Танилцуулга
[00:01:28] Төгсөгчдийн үүсгэн байгуулсан түүх ба түүний эрхэм зорилго
[00:03:50] "Хамгийн бага амьдрах чадвартай агентууд"
[00:07:37] Домэйноос гадуурх ерөнхий ойлголтод анхаарлаа хандуулж, ML ба хиймэл оюун ухааныг ялгах
[00:08:19] Лама3-ыг 1М жетон болгон сунгах
[00:11:41] Урт контекст дараалал бүхий техникийн сорилтууд
[00:14:30] Өгөгдлийн чанар ба олон төрлийн мэдээллийн багцын ач холбогдол
[00:16:07] Тета утга гэж юу вэ?
[00:18:27] RoPE vs Ring Анхаарал vs ALiBi vs YaARN
[00:20:23] Бөгж яагаад чухал вэ?
[00:22:47] Контекст өргөтгөлийн мэдээллийн багцыг хэрхэн боловсронгуй болгох вэ
[00:27:28] Олон үе шаттай сургалтын мэдээлэл, сүүлийн үеийн мэдээлэлд хэт нийцэхээс зайлсхийх
[00:28:10] Сургалтад синтетик өгөгдлийг ашиглах боломж
[00:31:21] Загварын чадавхийг өргөжүүлэхийн тулд LoRa адаптеруудыг ашиглах
[00:34:45] Урт контекст загваруудыг харьцуулж, гүйцэтгэлийг нь үнэлэх
[00:38:38] 4М контекст болон үйлдвэрлэлийн чанарын доройтол руу түлхэж байна
[00:40:49] Энэ контекст танд юунд хэрэгтэй вэ?
[00:42:54] Чат болон Docs Summarization дахь урт контекст үзүүлэх нөлөө
[00:45:35] Урт контекст загвар, олон талт байдлын ирээдүйн чиглэл
[00:48:01] Судалгаа юу чухал болохыг та яаж мэдэх вэ?
[00:50:31] Хиймэл оюун ухааны судалгаа, салбарын мэдээгээр шинэчлэгдэх журам
[00:52:39] Хиймэл оюун ухааны аль бүтээн байгуулалтад цаг зарцуулахаа шийдэх
[00:56:08] Урт хугацааны хүрээнд хамтын ажиллагаа, мэдээллийн багц бүтээх хүсэлт

Транскрипт

Алессио [00:00:00]: Бүгдээрээ, Нууцлаг сансрын подкаст тавтай морил. Энэ бол Алессио, хамтрагч, оршин суугаа газрын CTO юм. Decibel Partners , мөн миний хамтран хөтлөгч Swyx үүсгэн байгуулагч надтай нэгдэж байна Smol AI .

Swyx [00:00:14]: Хөөе, өнөөдөр бид Gradient-ийн Марк Вантай алсын студид байна. Марк тавтай морил.

Марк [00:00:19]: Хөөе, энд байгаадаа баяртай байна. Та бүхэнтэй ярилцах нь үнэхээр гайхалтай туршлага юм. Танай подкаст үнэхээр, үнэхээр сонирхолтой гэдгийг би мэдэж байгаа бөгөөд та нарыг гарах болгонд би үргэлж сонсдог.

Алессио [00:00:31]: Тэр цалинтай жүжигчин биш. Тэр үүнийг өөрийн хүслээр хэлсэн.

Swyx [00:00:34]: Бид танд дараа чекээ өгнө. Тэгэхээр та бид хоёр коллежид буцаж очдог гэдэг утгаараа ер бусын юм. Бид хаана давхцаж байснаа сайн санахгүй байна, гэхдээ бид хоёулаа Вартон руу явсан. Бид тоон хөгжүүлэгчийн ертөнцөд орлоо.

Марк [00:00:46]: Тийм ээ, яг. Нэг ёсондоо галзуу юм, тийм үү? Тиймээс бүх зүйл бүрэн эргэлддэг. Би нэлээд хэдэн жил байсан бөгөөд дараа нь Цахиурын хөндийд хүрч чадсан бөгөөд одоо бид их бага адилхан санагдах үед дахин огтлолцдог, тийм ээ? Хиймэл оюун ухааны дайнуудын нэгэн адил тухайн үеийн худалдааны дайнууд ч тодорхой хэмжээгээр, тодорхой хэмжээгээр авъяас чадварыг олж авдаг.

Swyx [00:01:07]: Миний бодлоор бид хэд хэдэн хуучин санхүүгийн хүмүүс технологид шилжиж, дараа нь өгөгдөл болон хиймэл оюун ухаан руу тэмүүлж байгаа нь гарцаагүй. Та үүнийг хийсэн бололтой. Та олон төрлийн квант худалдааны дэлгүүрт байсан, гэхдээ дараа нь технологид шилжихдээ Box-ийн ахлах өгөгдөл судлаач, Splunk-ийн ML эрдэмтэн байсан. Тэгээд эцэст нь Gradient болсон стартап дээр ажиллахаасаа өмнө. Та энэ түүхийг ярихыг хүсч байна уу?

Марк [00:01:28]: Тийм ээ, би яагаад тоон санхүүгийн ертөнцөөс ирсэн шалтгааны нэг хэсэг нь илүү их хамтын ажиллагаа, том өгөгдөл, масштабын машин сургалт ямар байдгийг мэдэх явдал гэж бодож байна. хөөс, тийм ээ? Мөн Box-д ажиллаж байхдаа би ихэвчлэн хөндлөн функциональ үүрэг гүйцэтгэж, бүтээгдэхүүний аналитик болон зах зээлд гарахад тусалсан. Дараа нь Splunk-д би аналитик, хайлт, гүнзгий суралцахад илүү тодорхой үүрэг гүйцэтгэсэн.Gradient-ийн хувьд, бид яагаад үүнийг эхлүүлсэн бэ, энэ нь санхүүгийн салбарт байсан уу, эсвэл технологийн салбарт байсан уу гэх мэт, хиймэл оюун ухаан эсвэл ML бизнест юу хувь нэмрээ оруулж чадах талаар өгөх зүйл бага зэрэг байгааг би үргэлж анзаардаг. Тэгээд бид энэ нь аж ахуйн нэгжид байж болох зүйлийн үнэ цэнийг бүрэн хэмжээгээр авчрахыг хүссэн үнэхээр сайхан цагт ирсэн. Дараа нь OpenAI үүнийг зөвшөөрөхийн тулд энэ салбарт асар том вакуумыг бий болгосон нь ойлгомжтой, тийм үү?Тиймээс би өөрөө хүмүүст үнэхээр тусалж чадна гэж бодож байсан бүтээгдэхүүнээ тээвэрлэх, тээвэрлэх үнэхээр хүчирхэг юм шиг санагдсан.

Алессио [00:02:35]: Магадгүй зүгээр л Gradient дээр бага зэрэг хүрэхийн тулд бид Gradient, Llama3-ийн контекст өргөтгөлийг даван туулах олон зүйл байгааг би мэдэж байна, маш их зүйл байгаа, гэхдээ Gradient гэж юу вэ? Мөн таны вэбсайт дээр гайхалтай дизайн байгаа, энэ нь үнэхээр чимэг юм шиг байна. Яг одоо Amazon Prime дээр Fallout-ийг үзэж байгаа хүмүүс үүнийг хараад л дурсах сэтгэл төрж магадгүй гэж би бодож байна. Энэ яг юу вэ? Учир нь би чамайг цутгах үйлдвэртэй гэдгийг мэдэж байгаа, танд SDK агент байгаа, үүнд маш олон хэсэг байгаа.

Марк [00:03:00]: Тийм ээ, гарцаагүй. Мөн дизайны дуудлагад талархаж байна. Миний үүсгэн байгуулагч Крис гоо зүй хэрхэн харагдахыг хүсч байгаа талаар маш их бодсоныг би мэднэ. Мөн энэ нь надад Mad Men-ийн талаар маш их зүйлийг сануулж байна. Тиймээс би үүнийг хараад мэдэрсэн анхны сэтгэл хөдлөлийн хэлбэр байсан. Энгийнээр хэлэхэд, Gradient, бид хиймэл оюун ухааны бүрэн платформ юм. Бидний хийхийг үнэхээр хүсч байгаа зүйл бол бид өмнө нь аж ахуйн нэгжид байсан бүх RPA ажлын ачаалал эсвэл кодчилогдсон автоматжуулалтын ачааллыг идэвхжүүлэхийг хүсч байна.Бид хүмүүст хэврэг биш, илүү бие даасан, төлөөлөгчийн ажлын урсгалд шилжих боломжийг олгохыг үнэхээр хүсч байна, шинэ хиймэл оюун ухааны ажиллах хүч ямар байх ёстой гэж бодож байгаа интерфейс нь илүү саадгүй мэт санагддаг. Мөн ийм төрлийн хүмүүс биднээс эдгээр зорилгоор нэлээд хэвтээ платформыг бий болгохыг шаарддаг.

Алессио [00:03:50]: Бид Discord дээрх хиймэл оюун ухааны үйл ажиллагааны клубтээ хамгийн бага амьдрах чадвартай агент эсвэл төлөөлөгчийг хэрхэн тодорхойлох талаар ярилцдаг. Таны бодлоор гогцоо шиг биш харин төлөөлөгч гэж нэрлэж болох хамгийн бага зүйл юу вэ? Мөн та цаг хугацааны явцад, ялангуяа хүмүүс үүнийг улам бүр нэвтрүүлж байгаа үед хувьслыг хэрхэн харж байна вэ?

Марк [00:04:08]: Тиймээс би үүнийг хамгийн бага түвшинд байгаа хүн бүр дамжуулах хоолойг гүйцэтгэх үед хэрхэн харагдах талаар тодорхой бус байдлын талаар боддог. Гэхдээ үүнээс цааш ч гэсэн энэ нь үр дүнтэй үнэлгээ рүү буцдаг. Энэ нь зангилааны үе шат бүр дээр байгаа юм шиг, тодорхой бус байдлаас болж тухайн ажлын ачаалалд амжилтанд хүрэх магадлал бага зэрэг сайжирч байгааг харах хэрэгтэй болно.Тиймээс энэ нь тодорхой хэмжээгээр хэт ачаалалтай нэр томъёо гэж би бодож байна, учир нь өнөө үед хэлний загвар эсвэл ямар нэгэн олон төрлийн загвар гэж нэрлэвэл бүх зүйл агент болдог. Гэхдээ бидний хувьд миний суурь бол статистик юм шиг байна. Тиймээс би илүү олон зангилаанаас болж амжилтын үйл явдал эсвэл үр дүн гарах магадлал сайжирч байгааг харахыг хүсч байна.

Swyx [00:04:52]: Тийм ээ, миний бодлоор энэ төрлийн хиймэл оюун ухааны эрин үеийг өгөгдлийн шинжлэх ухаан-y төрлийн эрин үеэс тэс өөр болгож байгаа нэг зүйл бол энэ нь маш тодорхой бус бөгөөд үүнийг хянахад хэцүү байдаг. Gradient-ийн үүсгэн байгуулсан түүх юу вэ? Таны сонгосон бүх асуудлын нэгэн адил, яагаад үүнийг сонгох вэ? Та үүсгэн байгуулагчидтайгаа хэрхэн нэгдэж, үүнтэй төстэй зүйл биднийг өнөөдрийг хүртэл авчирсан бэ?

Марк [00:05:13]: Тиймээ. Тэгэхээр миний үүсгэн байгуулагчдын нэг бол Крис, тэр ч бас миний сайн найз. Та түүнтэй Пенн дээр огтлолцсон эсэхийг би мэдэхгүй, гэхдээ... Крис Чанг? Тийм ээ, тийм ээ. Магадгүй нэг юмуу хоёр жил банкны ажил хийсэн Крис Чанг Мета-д программ хангамжийн инженер байсан, бас Google-д байсан. Тэгээд хамгийн сүүлд Netflix болон бүтээгдэхүүний захирал шиг байсан.Мөн бид үргэлж хамтдаа ямар нэг зүйл хийхийг хүсдэг байсан ч үр дүнд хүрсэн зүйл бол аж ахуйн нэгжид нэг удаа тулгардаг зүйлийг хөгжүүлэх хүсэл эрмэлзэл, гол төлөв дотоод багаж хэрэгслийн туршлага, шилжилт хөдөлгөөн шиг ямар нэгэн зүйл үндсэндээ оршин тогтнох чадваргүй байдлаас үүдэлтэй гэдгийг бид мэдэрсэн. тийм үү?Миний хэзээ нэгэн цагт мэдэрч байсан эсвэл тэр үүнийг мэдрэх ёстой байсан ML платформ болгонд энэ нь сэргээн босголттой адил бөгөөд та үүнийг урж хаяхад танд шинэ ажлын урсгал эсвэл автоматжуулалт гарч ирэх бөгөөд энэ нь маш том олон улирал, магадгүй олон жилийн төсөл юм. Үүнийг хийхийн тулд бид Google-ийн үүлэн платформ дээр ажиллаж байсан Нээлттэй хаалганы ойн хуучин хамтран зүтгэгч Кристэй хамтран ажиллаж байсан бөгөөд Google-ийн хувьд хамгийн сүүлийн үеийн цар хүрээ, бодит байдлыг олж харсан бөгөөд энэ нь маш том олон улирал юм. Бусдаас өмнө системүүдийн хиймэл оюун ухааныг ашиглаж байсан, тийм үү?Тэд трансформатор зохион бүтээсэн бөгөөд тэдний дотоод багаж хэрэгсэл нь бусад бүх зүйлээс хамаагүй дээр байв. Үүнийг харсны дараа хүмүүс буцаж очиход үнэхээр хэцүү байдаг. Тиймээс бидний үнэхээр хүсч байсан зүйл бол эдгээр томоохон аж ахуйн нэгжүүдэд ийм төрлийн үйл ажиллагааны үрэлт байгаа үед бүтээгдэхүүний үнэ цэнэд ажлын ачааллыг тээвэрлэхтэй адил үрэлтийг багасгах явдал байв. Дараа нь энэ бүхний гол эргэлтийн цэг нь таны хэлсэнтэй адил домэйн асуудлаас гадуурх асуудлыг шийдэж чадах зүйл байсан юм.Тиймээс орж ирж буй домэйн өгөгдлөөс гадуур, унахгүй байх уян хатан, цаг хугацааны явцад бий болгож буй зүйлээ үргэлжлүүлэн сайжруулсаар байх шиг. Машины сургалт нь суралцах явдал бөгөөд надад маш олон системүүд байгаа юм шиг санагддаг, тэд маш тодорхой объектив функцийг сурч байсан, гэхдээ тэд үнэхээр хэрэглэгчтэй хамт суралцаагүй.Энэ бол бүхэл бүтэн, та нар мэдэж байгаа, бид туслах гэсэн нэр томъёог байнга ашигладаг, гэхдээ туслах гэсэн миний алсын хараа үргэлж надтай зэрэгцэн систем хөгжихийн төлөө байсан, тийм ээ? Бараг бие махбодтой хоёр дахь мөч эсвэл өөрийгөө сурснаар илүү сайн болох зүйл шиг.

Swyx [00:07:37]: Тийм ээ. Хүмүүс үргэлж ML ба хиймэл оюун ухааны ялгааг тодорхойлохыг хичээдэг. Миний бодлоор хиймэл оюун ухаанд бид домэйноос гадуурх ерөнхий ойлголтод илүү их санаа тавьдаг бөгөөд энэ бүхэн сургалтын дээвэр дор байдаг, гэхдээ энэ бол маш тодорхой төрлийн сургалт юм. Энэ нь бас хуваарилалтаас гадуурх ерөнхий ойлголтын зарим хэлбэр юм.Мөн энэ хүрээнд та одоо байгаа нээлттэй эхийн загварын контекст цонхыг өргөтгөж байна. Магадгүй та зүгээр л биднийг тэр чигт нь буцаан авчрахыг хүсч байвал яагаад урт контекстийг сонирхож эхэлсэн бэ? Та яагаад үүнийг ажиллахад сонирхолтой хөрөнгө оруулалт гэж үзсэн бэ? Тэгээд дараа нь анхны өргөтгөлүүдээ хэрхэн хийсэн түүх.

Марк [00:08:19]: Лама3-ын хувьд бид энэ загварыг анх гаргахдаа өмнө нь гол шүүмжлэлд өртөж байсан тул сонгосон, 8000 контекст урт нь хэтэрхий богино юм шиг санагдсан, учир нь энэ нь Мистрал, тэр ч байтугай И 2000 жетоны контекст урттай загвартай гарч ирэв.Үнэхээр энэ бүхний эхлэл нь бид маш олон загвар өмсөгчдийг маш сайн тааруулж, регүүд дээр маш их ажиллаж, ийм зүйлтэй байсан бөгөөд өнөөг хүртэл энэ нь үндсэндээ сурган хүмүүжүүлэх мэтгэлцээн хэвээр байгаа бөгөөд "Хөөе, энэ нь регтэй харьцуулахад маш сайн тохируулга мөн үү?" Үүний эсрэг үү? Эцсийн эцэст энэ бол зүгээр л бүх мета сургалт, тийм ээ? Бидний хүсч буй зүйл бол загвар өмсөгчдөд дасан зохицож чадахуйц хамгийн сайн мета сургалтын ажлын урсгал эсвэл мета сургалтын системтэй адил юм. юу ч хийх.Мэдээжийн хэрэг, урт контекст үүнд тодорхой байр суурь эзэлдэг байсан, гэхдээ хэн ч түүний хязгаарыг даваагүй, тийм ээ? Та 10 удаагийн буудлага, магадгүй 100 удаагийн цохилт нь загварын чадавхийг сайжруулж, сайжруулж байгааг харах болно, гэхдээ Google Gemini-тэй анхны 1 сая контекст урттай загвартай гарч ирэх хүртэл л олон хүний эрүү өлсөж, энэ нь үнэхээр юу хөнгөвчлөх, шинэ ажлын урсгал гарч ирснийг ойлгох болно. Тиймээс бид үүнийг хийхийн тулд бусад нээлттэй эхийн загваруудыг сургах үе шаттай болсон.Гэхдээ Llama3 гарч ирэх тэр мөчид бид зүгээр л тэр тодорхой загварын эсрэг тэмцсэн, учир нь үүнд онцгой анхаарал татсан хоёр зүйл бол би эдгээр хэлний олон загварыг шахалтын алгоритм гэж тодорхой хэмжээгээр харж байгаа явдал юм. 15 их наяд жетон нь тодорхой загварт багтсан. Энэ нь надад маш их чадвартай бөгөөд контекстийг уртасгахад илүү дасан зохицох чадвартай байх нь дамжиггүй.Тэгээд бид тийшээ орж, 1 саяын тоо, энэ нь яг адилхан байсан, Хойд одыг тэнд тавиад, тэнд хүрч чадах эсэхийг хараарай, дараа нь бид үүнийг хийх явцад юу болж байгааг хараарай. Тиймээс би худлаа яривал энэ бүх тооцоог хөнгөвчилсөн Крузо руу хашгираарай. Энэ нь маш их бэлтгэл шаарддаг, гэхдээ энэ асуудлын дараа явахын тулд бүх одод яг тэр мөчид тохирсон.

Swyx [00:10:32]: Чамайг дөнгөж сая хөндсөнөөс хойш би Крузогийн талаар хажуугийн тэмдэглэл авна. Тиймээ. Крузо гэж юу болохыг тайлбарлаж чадах уу? Газрын тосны цооногийн орой дээр GPU тавих сэтгэлгээний дүр төрх надад бий. Энэ юу вэ? Тэд юу хийдэг вэ? Та тэдэнтэй яаж ажилладаг вэ? Та зүгээр л ямар нэг сайхан зүйлийг мэддэг. Тэд таны тэдний тухай хэлсэн сайхан зүйлийг үнэлдэг гэдэгт би итгэлтэй байна. Өө, гарцаагүй.

Марк [00:10:48]: Мэдээжийн хэрэг. Тиймээс тэд үндсэндээ GPU үйлчилгээ үзүүлэгч хайж байсан хамтын хүчин чармайлтаар бидэн дээр ирсэн. Би үүлэн үйлчилгээ үзүүлэгч рүү залгамааргүй байна, учир нь тэр үед та гиперскалерын талаар боддог. Гэхдээ тэдний хувьд тэд GPU-ийн хамгийн том өөр үүлэн үйлчилгээ үзүүлэгчдийн нэг юм. Мөн тэд өөрсдийн технологийг харуулахын тулд бид хамтран ажиллахыг санал болгож байсан. Мөн энэ нь бидэнд L40S-ээ өргөжүүлэхэд үнэхээр хялбар болгосон.Эдгээр нь төслийг хэрэгжүүлэхийн тулд хамгийн түрүүнд зориулалтын кластерийг авахын тулд бидний ашигласан GPU-ийн тодорхой тохиолдлууд юм. Энэ нь үнэхээр сайн харилцаа болсон. Мөн бид өнөөдөр тэдэнтэй хамтран ажиллаж байна, учир нь бид эдгээр загваруудыг илүү үнэлж, магадгүй илүү ихийг сургахыг хичээж байна. Мөн хэн ч тэдэн дээр очиж, үндсэндээ тэднээс таны тооцооллыг авах боломжтой. Мөн тэдгээр төрлийн төслүүдэд маш олон GPU байдаг.

Алессио [00:11:41]: Загвар өмсөгчид яагаад хайрцагнаас илүү урт контекст дараалалтай ирдэггүй талаар хүмүүстэй танилцуулахыг хүсч байна. Мэдээжийн хэрэг, TLDR нь өөрийгөө анхаарч үзэх нь санах ойн квадрат масштабтай адил юм. Тиймээс контекст хэмжээ урт байх тусам сургалтын цагийг илүү их тооцоолох хэрэгтэй болно. Тийм учраас та Крузог өргөтгөхөд тань туслах хэрэгтэй. Маш урт контекст шиг том хэлний загварыг хэрхэн сургах вэ?Дараа нь энэ нь зүгээр л дээр нь наахаас юугаараа ялгаатай вэ? Дараа нь бид гүйцэтгэл болон эдгээр зүйлсийн заримд шумбах болно. Гэхдээ манай үзэгчдийн дунд хиймэл оюун ухааны инженерүүд болох олон хүмүүсийн хувьд тэд загвар ашигладаг, гэхдээ загваруудыг өөрсдөө бүтээх албагүй гэж би боддог. Ихэнх тохиолдолд урт контекст загвар гаргахад юу нөлөөлдөгийг ойлгоход хэцүү байдаг.

Марк [00:12:23]: Тийм ээ, тэнд байгаа бүх уран зохиолын хувьд, би үнэнийг хэлэхэд, бидний хийсэн арга барилын хоорондын солилцоо нь TBD хэвээр байгаа байх, энэ нь сургалтын хөтөлбөрөөс илүү юм. Үүний дараа суралцах арга барил, угаасаа урт контекст бүхий загварыг сургах, учир нь хүмүүс түүний масштабын шинж чанарыг нарийвчлан авч үзээгүй гэж би бодож байна.Гэхдээ мета-аас авсан судалгааны баримтуудын дунд хэв маягийн баримтууд байдаг тул хэрэв та загвар өмсөгчийг богино хугацаанд сургаж, энэ контекстийг аажмаар нэмэгдүүлж, эцсийн хязгаарт дуртай болохыг цаасан дээр харуулсан. 32к гэдэг нь ихэвчлэн 2-р ламын хязгаартай адил урт байсан. Энэ нь үнэндээ та бүх хугацаанд 32к сургах гэж оролдсоноос илүү сайн ажилладаг.Тэгээд би энэ тухай зөн совингоор бодох дуртай, чи магадлалын онолыг сурах гэж байгаа юм шиг номын хавтасыг очиж уншаад дараа нь бүх дасгалаа хийхгүй, дараа нь юу хийх гэж байна. Та бүлэг бүрийг хийж, дасгал хийж, бүлгийг уншиж, дасгал хийж, дараа нь цогц дасгал эсвэл шалгалт гэх мэт эцсийн багцаар дуусгах болно.Анхаарал гэдэг нь яг ямар сонсогдож байгаа юм шиг санагдаж байна, тодорхой хэмжээгээр та олон тооны индекстэй бөгөөд та загвараа кодчилолынхоо туршид контекст, үзэл баримтлалыг нутагшуулахын тулд анхаарч байна, тийм ээ, дараалал нь ямар ч текст шиг. Та үүнийг өгч байна. Тиймээс та сургалтын хөтөлбөрийг сурах тал дээр хийж байхдаа түүнд бүх ойлголтод анхаарлаа хандуулах боломжийг олгохыг хичээж байна.Тиймээс өгөгдөл нь тухайн контекстийг бий болгоход асар их үүрэг гүйцэтгэдэг, учир нь олон удаа хүмүүс контекстийг уртасгах гэж оролдохдоо алдаа гаргадаг тул загвар нь явах шаардлагагүй түүхий текст өгдөг. дарааллын эхэнд бүх замыг туулж, дараа нь санааг дарааллын төгсгөлтэй холбоно.

Алессио [00:14:30]: Тэгэхээр өгөгдлийн чанар бол нэг зүйл, гэхдээ Llama3 нь 2k контекст хэмжээтэй байсан бол 1 сая контекст ямар ажил байх шиг санагдаж байна, жишээ нь танд хэрэгтэй хамгийн бага контекст хэмжээ байна уу? ерөнхийд нь дүгнэж чадах уу? Эсвэл тодорхой тохируулгын төрөлд үүнийг анхаарч үзэх нь тийм ч чухал биш гэж үү?

Марк [00:14:47]: Хамгийн бага зүйл байхгүй гэж би хэлэх болно, эсвэл ядаж ийм зүйл байхгүй гэж хэлэх тийм хүчтэй мэдэгдэл хийж чадахгүй. Гэхдээ хэрэв танд 4k байгаа бол ямар ч ердийн загвар байгаа бол контекстийг уртасгахаасаа өмнө контекстийг нь аажмаар нэмэгдүүлэх боломжтой. Хэрэв энэ нь таны контекст үргэлжлэх хугацааг сунгахаас өмнө үнэхээр сайн эргэлзсэн оноо авсан бол. Хэрэв энэ нь сайн эргэлзээ төрүүлээгүй бол та үндсэндээ дараагийн токеныг урьдчилан таамаглах боломжгүй, тийм ээ?Харин дараа нь, магадгүй өнгөрсөн баасан гаригт бидний блог гаргасан өөр нэг бүрэлдэхүүн хэсэг нь та загварын эхлүүлсэн тета утгыг анхаарч үзэх хэрэгтэй юм шиг байна. Llama3 загварын нэлээд өвөрмөц зүйл нь тэдний тета параметрийн сонголт байсан бөгөөд энэ нь загварт контекстийг хэр удаан сунгах боломжтой талаар зарим нэг сэжиг төрүүлэв. Ингэснээр бид байрлалын кодчилол, олсны масштаб гэх мэт асар том сургамжийг авч болно.Гэхдээ эдгээр ойлголтууд болон аливаа зүйлийн энэ тал нь уртыг илүү хялбар масштаблах боломжийг танд олгоно.

Алессио [00:15:55]: Загвар өмсөгчдөд зориулсан тета гэж юу вэ? Хэрэв би өмнө нь загвар бүтээгээгүй бол? Тиймээ. Энэ нь юу болохыг би мэдэж байгаа нь ойлгомжтой. Гэхдээ мэдэхгүй хүмүүсийн хувьд би үнэхээр мэргэжилтэн юм.

Марк [00:16:07]: Тэгэхээр бүх загварт байдаггүй. Гэхдээ зарим загварууд олсны масштабыг ашиглах болно гэдгийг та мэднэ. Мөн Llama3 үүнийг хийдэг. Гэхдээ бусад загваруудын ашигладаг байрлалын кодчилол, суулгах өөр механизмууд бас бий. Гэхдээ TLDR нь ихэнх архитектурын талаар бодох юм бол тэдгээр нь ашигладаг, энэ нь синус эсвэл косинусын муруйтай адил юм. Загварт таалагдахын тулд танд өгөгдлийн янз бүрийн хуваарилалтыг харах боломжийг олгох далайцын талаар бодож байна.Тета утга нь үнэхээр юу хийдэг вэ гэвэл энэ нь суулгацын орон зайд хэв маяг хэр олон удаа гарч ирэхийг зохицуулдаг, та үндсэндээ тета утгыг нэмэгдүүлэх замаар эргэлтийн муруйг шилжүүлж, янз бүрийн төрлийн хуваарилалтыг харах боломжийг олгодог. Тэд өмнө нь сургалтын өгөгдөлд үнэхээр тохиолдсон юм шиг. Энэ нь маш их ойлгомжгүй юм.Гэхдээ энэ нь байрлалын экстраполяци байдаг, дараа нь интерполяци байдаг, та интерполяци хийхийг хүсдэг, зөвхөн цэвэр экстраполяци нь загварыг улам дордуулдаг, аливаа зүйлд анхаарал тавихад илүү хэцүү байдаг. Харин интерполяци нь бүх зүйлийг анхны контакттай нь тодорхой хэмжээгээр шахаж, дараа нь сая контекст дарааллын жетонуудыг харахад үнэхээр тохиолдсон мэт аль хэдийн үзсэн өөр өөр дараалалтай давхцах боломжийг олгодог.Тийм ээ, энэ тал нь хэр зэрэг цар хүрээтэй болохыг бид мэдэхгүй байсан гэж би бодож байна. Энэ бол нэг зүйл гэж би бодож байна. Тэгэхээр би чамд худлаа хэлэхгүй ээ, бид саяд хүрэх нь гарцаагүй. Энэ нь илүү байсан, бид 256-д хүрч байгаа бөгөөд энэ нь сайн харагдаж байсан. Бид эвалиа хийсэн, бид үүнийг илүү өргөжүүлсэн. Тэгээд хамгийн сайн зүйл бол бид томъёог эхэндээ тогтоосон явдал юм. Тэгэхээр энэ нь үнэндээ цаасан дээрээс авсан томьёо юм шиг, миний бодлоор энэ бол олсны масштабын цаас юм.Тэгээд бид тэр томъёог хараад, дараа нь бид үнэт зүйлсээс татгалзсан. Тэгээд энэ бүхэн эмпирик юм. Тэгэхээр энэ нь математикийн тавтологи эсвэл нотолгоо шиг биш, энэ нь үнэхээр сайн ажилласан эмпирик томъёо юм. Тэгээд бид үүнийг үргэлжлүүлэн өргөжүүлсээр байгаад барьж авсан. Энэ нь масштабын хуулиудтай адил юм, масштабын хуулиуд байдаг, гэхдээ тэдгээр нь үргэлжлэх эсэхийг та мэдэхгүй.

Swyx [00:18:27]: Тийм ээ. Хүмүүсийн ярьж байсан масштабын бусад хэлбэрүүдтэй харьцуулж чадаж байна уу? Алиби санаанд орж, мэдээний судалгаагаар утсыг маш их ярьж байна. Дараа нь шууд хамааралгүй, гэхдээ цагираган анхаарал гэх мэт өөр хэлбэрүүд гарч ирдэг тул бид StrongCompute in the StrongCompute-тэй энэ бүх аргын талаар ярилцаж байсан. Та олс шиг бусад зүйлстэй харьцуулж, ялгаатай байхыг хүсч байна уу гэж би гайхаж байна.

Марк [00:18:51]: Тийм ээ, Алиби, би үүнийг тусгайлан харьцуулж үзээгүй гэж бодож байна, гол нь зарим шинэ архитектурууд үүнийг тийм ч их ашигладаггүйг анзаарсан. Миний бодлоор үүнийг үнэхээр ашигласан хамгийн сүүлийн архитектур бол Мозайк MPT загварын анги байсан. Тэгээд өнөө үед бараг бүх загварууд олсны масштабтай болсон. Дараа нь үр дүнтэйгээр та утас ашиглаж болно.Бид зүгээр л эмпирик дэгжин, үнэхээр хялбар бөгөөд бидний сайн ойлгосон шиг тета масштабыг тусгайлан хийсэн. Хүмүүсийн хэрэглэж буй нээлттэй эх сурвалжид үнэхээр сонирхолтой байдаг LoRa-д суурилсан аргыг илүү ашигладаг гэдгийг би мэднэ. Wing-ийн ашиглаж байгаа нь Поз юм. Бид тэдэнд зарим загваруудыг үнэлэхэд нь тусалдаг. Гүйцэтгэлийн хувьд энэ нь илүү урт, урт контекст дээр бага зэрэг задарч эхэлдэг.500,000-аас сая хүртэл энэ нь өвсөнд байгаа зүү шиг тийм ч сайн барьдаггүй юм шиг харагдсан. Энэ нь үнэлгээний хувьд TBD хэвээр байна. Энэ бол сийрэг өндөр хэмжээст орон зай бөгөөд та маш олон янзын зүйлийн гүйцэтгэлийг үнэлж, дараа нь үүнийг буцаан зураглахыг хичээдэг, хөөе, энэ бол миний анхнаасаа санаа тавьдаг байсан зүйл бөгөөд надад мянга мянган өөр үнэлгээ таалагдсан бөгөөд тэд надад ямар нэг зүйлийг хэлдэг боловч бүхэл бүтэн зургийг биш юм.Мөн бөгжний анхаарлын тухайд бид сургалт явуулахын тулд цагираган анхаарлыг ашигласан. Тиймээс бид санах ойн зурвасын өргөнийг нэмэгдүүлэхийн тулд GPU дээрх үнэхээр тодорхой сүлжээний топологитой хослуулан флэш анхаарал, анхаарлыг татсан. Тиймээ.

Swyx [00:20:23]: Миний ойлгож байгаагаар, цагираган анхаарлын нэгэн адил олон хүмүүс үүнийг Gemini-ийн сая токен контекст гэж үнэлдэг, гэхдээ үнэндээ энэ нь GPU-г илүү сайн ашиглах явдал юм. Тийм ээ, энэ нь үнэхээр тийм юм. Та манай шоуны тэмдэглэлд Жан Пейюаны хялбар контекст репо гэж дурдсан. Энэ нь маш их гарч ирж байгааг би харсан. Энэ нь цагирагт анхаарлаа хандуулах нь хэр чухал болохыг та мэдэх үү? Люсид Рэйнс эсвэл бусад нээлттэй эх сурвалжийн аль нэгний хийсэн өөр нэг нь байж магадгүй гэдгийг би мэднэ.Гэхдээ хялбар контекст гэж юу вэ? Энэ нь очих газар мөн үү? Та бөгжний анхаарлыг хэрэгжүүлэхийн тулд олон зүйлийг үнэлсэн үү?

Марк [00:20:53]: Тийм ээ, бид бүгдийг нь үнэлсэн. Анхны зохиогчид, та нар мэднэ дээ, Матеи болон Берклигийн бүх хүмүүс үүнд зориулж JAX-ийн хэрэгжилтийг бүтээсэн гэж би хэлмээр байна. Харамсалтай нь, JAX-ийн хэрэгжилт нь GPU дээр тийм ч сайн ажилладаггүй. Таны хийдэг ямар ч гэнэн тохиргооны нэгэн адил энэ нь хайрцагнаас тийм ч амархан дуусахгүй юм шиг.Харамсалтай нь энэ нь таны кластерт зориулсан сонирхолтой сүлжээний топологийг тохируулах илүү олон тохиргоотой хамгийн боловсорсон репо байсан байх. Дараа нь хялбар контекстээс гадуурх бусад PyTorch хэрэгжүүлэлтүүд үнэхээр ажиллахгүй байсан.Магадгүй бид нэг жижиг зүйлийг буруу хэрэгжүүлээгүй байж магадгүй, гэхдээ тэр ч байтугай lucidrains гэх мэт тодорхой цэг дээр идэвхтэй хөгжил гарч байсан шиг, тэр үнэхээр сонирхолтой байсан гэж би бодож байна, учир нь тэр нэг удаа хаа нэгтээ ажилд орох шиг байсан. дараа нь зүгээр л амлалт хийхээ больсон. Тэгээд бид үүнийг олохоор ажиллаж байхдаа хэн нэгэн үүнийг идэвхтэй зөрчиж байгаа репо руу орохыг хэзээ ч хүсэхгүй байна. Үгүй бол бид өөрсдөө тэр репо идэх дуртай байх ёстой.Хялбар контекст нь үүнийг маш сайн ажилладаг уугуул номын сангуудад ашигласан анхны PyTorch хэрэгжилт байв. Дараа нь бид үүнийг кластер сүлжээний топологид тохируулахын тулд өөрсдөө тохируулсан. Тиймээс Жан Пейюаньд нээлттэй эхийн оруулсан хувь нэмрийг нь хэлээрэй. Хэрэв тэд үүнийг эхлүүлэхийг хүсч байвал илүү олон хүмүүс үүнийг эхлүүлэхийг хүсч байгаа гэж бодож байгаа тул бид түүнтэй хамтран ажиллаж, цаашид үүнийг урагшлуулахыг тэсэн ядан хүлээж байна гэж би бодож байна.Жаксыг хэдэн хүн мэддэгийг би мэдэхгүй л бол хамгийн хялбар арга байхыг зөвлөж байна. Би хувьдаа үүнийг тийм ч сайн мэдэхгүй. Тиймээс би илүү PyTorch залуу. Тиймээс тэр үүнийг туршиж үзэхийн тулд үнэхээр сайн танилцуулга өгдөг гэж бодож байна.

Алессио [00:22:47]: Нэгэнт та техникийн нээлт хийсэн бол таны хамтран ажилладаг үйлчлүүлэгчдийн бодит сонирхол, үйлчлүүлэгчдийн талаар юу хэлэх вэ? Заримдаа контекст хэмжээ нь маркетингийн арга заль байж болох юм шиг санагддаг, хүмүүс өө, тийм ээ, үгүй, 1 сая, 2 сая, 3 сая, 4 сая. Энэ бол алгоритмын тал юм. Сургалтыг хэрхэн эрчим хүчээр хангадаг вэ? Гэхдээ нөгөө тал нь үүнд ордог өгөгдөл нь ойлгомжтой. Тоо хэмжээ, чанар хоёулаа байдаг.Таны жиргээний нэг нь контекст өргөтгөл хүртэлх AP загварт зориулж 200 сая орчим жетон дээр сургасан гэж би бодож байна. Гэхдээ жетон нь юу вэ? Та тэдгээрийг хэрхэн бүтээдэг вэ? Сургалтын өмнөх өгөгдлийн багц болон контекст өргөтгөлийн өгөгдлийн багцын хоорондох зарим ялгаа юу байж болох вэ? Тийм ээ, таны өгсөн өөр ямар ч өнгө гайхалтай байх болно.

Марк [00:23:30]: Тиймээс бид тусгайлан зориулж загварт хоёр өөр шинэчлэлт хийсэн. Тиймээс бидний бэлтгэсэн анхны давхарга нь үндсэндээ бэлтгэлийн өмнөх давхаргатай адил байсан. Тиймээс бид нарийхан унтлагын хувцасны өгөгдлийг авч, дараа нь шүүж, холбох ажлыг үргэлжлүүлж, бидний сунгахыг хичээж байсан контекст уртад хүрэх болно.Дараа нь бид UltraChat өгөгдлийн багцыг авч, шүүж, эсвэл өөр ямар нэг зүйл, UltraChat өгөгдлийн багцын хоёр дахь эрэмбийн деривативыг авч, дараа нь шүүж, дараа нь чат ашиглах тохиолдолд дахин форматлав. Эдгээр хоёр өгөгдлийн багцын хувьд та токенуудыг хачирхалтай аргаар таслахтай адил байж болох уу, үгүй юу, үгүй юу, тэр ч бай, агуулга нь үнэхээр олон янз байдаг эсэхээс үл хамааран сургалтын өмнөх өгөгдлийг үргэлж санаж байх хэрэгтэй. загварын чадварыг хадгалахад хангалттай.Нарийхан унтлагын хувцас нь ихэвчлэн олон төрлийн өгөгдлийн багц учраас хамгийн шилдэг нь байх хандлагатай байдаг. Мөн та суулгацыг шүүлтүүрийн өмнөх алхам болгон ашиглаж болно, тийм ээ? Таны суулгацын орон зай загварын анхны корпустай хэр олон янз байдаг вэ, дараа нь чадвараа хадгалахын тулд үүн дээр сургадаг.Эцэст нь, чатын өгөгдлийн багцын хувьд энэ нь түүний чадавхийг үнэхээр өргөжүүлэхээр хүлээгдэж буй бүх мэдээллийг анхаарч байгаа эсэхийг шалгаарай, учир нь та сүүлийн 200 жетоныг бүхэлд нь хариулах боломжтой урт контекст өгөгдлийн багц шиг үүсгэж болно. асуулт, энэ нь загварыг хэзээ ч юунд ч анхаарал хандуулахгүй. Тэгэхээр энэ нь бидний яг одоо хийж байгаа зүйл бол бид эдгээр загваруудыг хэрхэн сайжруулах вэ гэх мэтээр бодохыг хичээж байна.Одоохондоо хэмжигдэхүйц тийм ч хялбар биш байгаа илүү нарийн ширийн чадварыг илчлэхийн тулд та өгөгдлийн багцыг хэрхэн цуцлах вэ?

Алессио [00:25:26]: Загварын аль хэдийн мэддэг зүйлтэй харьцуулахад өгөгдлийн багцын олон талт байдал ба олон талт байдлын хооронд харьцаа байдаг уу? Загвар нь ажиллахын тулд контекст өргөтгөлийн өгөгдөл гэх мэт шинэ зүйлийн сайн хэсгийг аль хэдийн ойлгох шаардлагатай байна уу? Та өмнөх сургалтанд байсан шиг контекст өргөтгөлийн өгөгдлийн багцыг тавьж чадах уу? Загвар нас ахих тусам бидний байгаа зарим өгөгдлийн багцууд таны одоо байгаа загварын талаарх мэдлэгт байхгүй байж магадгүй гэж би бодож байна. сунгах гэж оролдож байна.

Марк [00:25:54]: Энэ бол үргэлж анхаарах зүйл гэж би бодож байна. Миний бодлоор та анхнаасаа тухайн загварт хэдэн жетон зарцуулагдсаныг мэдэж байсан байх. Өнөө үед бүх загварууд одоо хоёр оронтой тоотой их наяд болсон, тийм ээ? Тэгэхээр энэ нь хувин дээр дусал дусал юм, хэрэв та үнэхээр намайг тэнд тэрбум жетон тавьж чадна гэж бодож байгаа бол. Загвар өмсөгч үнэхээр шинэ мэдээлэл сурах болно гэж би бодож байна.Бүрэн нарийн тааруулахтай холбоотой ялгаануудын хооронд маш их судалгаа байдаг бөгөөд бид үүнийг бүрэн нарийн тааруулж, доод суурь нарийн тохируулга хийсэн. Энэ бол арилжаа юм. Миний бодлоор та тодорхой чадавхийг шалгаж, загварт шинэ мэдлэг оруулах боломжтой.Гэхдээ өнөөдрийг хүртэл би шинэ шинэ шинэ өгөгдлөөр загварын эдгээр шийдвэрийн хил хязгаарыг хэрхэн ойлгох чадварыг нэмэгдүүлэх талаар хүчтэй, сайн боловсруулсан эмпирик судалгаанд дуртай ямар ч судалгаа хараагүй. Үүний ихэнх нь өгөгдлийн зарим хэсгийг роман шиг барьж, дараа нь хуучин мэдлэгээ дахин боловсруулах шаардлагатай болдог. Тиймээс энэ нь зүгээр л бусад бүх зүйлийг мартаж, улам дорддоггүй, тийм ээ? Энэ нь харагдсан.Бидэнд анхны кодтой бөмбөгийг Мама 2-оос цааш сургасан түүхэн жишиг бий, тэр зүгээр л хэлний бүх чадвараа алдсан, тийм ээ? Тиймээс би тэр төслийг бүтэлгүйтсэн гэж үзэхийг хүсэхгүй байна, гэхдээ энэ нь үнэхээр амжилттай ерөнхийлөн дүгнэх дасгал биш байсан, учир нь эдгээр загварууд нь уян хатан байдлын тухай бөгөөд тодорхой хэмжээгээр ерөнхий шинж чанартай байдаг.

Swyx [00:27:28]: Сүүлийн үеийн нийтлэлүүдээс миний харж байгаа нэг зүйл бол олон үе шаттай сургалтын мэдээллийн ийм төрлийн ойлголт юм. Хэрэв та бүрэн нарийн тааруулж байгаа бол нүүдэл эсвэл хариулт нь 500 тэрбум жетоныг зүгээр л код дээр сургадаггүй байж магадгүй, учир нь тийм ээ, энэ нь зүгээр л кодлоход хэт тохиромжтой байх болно. Үүний оронд, магадгүй алхам нь янз бүрийн үе шатуудын холимогийг аажмаар өөрчлөх явдал юм, тийм үү?Өөрөөр хэлбэл, та хэт их хазайхгүйн тулд зарим эх сурвалжийн өгөгдлийн багцаа холих шаардлагатай хэвээр байна. Энэ нь маш бүдүүлэг шийдэл юм шиг санагдаж байна. Магадгүй алдагдлын функц шиг тохируулж, сүүлийн үеийн өгөгдөлд хэт их хазайхгүйн тулд илүү ухаалаг арга байж болох юм. Энэ нь шийдвэрлэх боломжтой зүйл юм шиг санагдаж байна. Би үүнийг л хэлж байна. Сүүлийн үеийн мэдээллийн асуудалд энэ нь хэтэрхий тохирсон байх шиг байна.

Марк [00:28:10]: Тийм ээ, шийдвэрлэх нь хэцүү гэж би бодож байна. Миний бодлоор шийдвэрлэх боломжтой гэдэг нь үргэлж маш хэцүү байдаг, гэхдээ эвристикийн үүднээс авч үзвэл, мөн доод талын ажлуудад хэрхэн нэгдэж, гүйцэтгэлийг сайжруулах талаар статистикийн үр ашигтай байх шиг байна. Энэ талаар эмпирик судалгаа хийх нь үнэхээр сайн байсан гэж би бодож байна. Үүнийг хийхийг оролдсон баримтууд байдаг. Do-Re-Mi цаасны нэгэн адил энэ нь өнгөрсөн жил гарсан гэж би бодож байна.Хүмүүсийн тулгардаг нэг зүйл бол тэд үүнийг үргэлж гэнэн даалгавар дээр хийхийг хичээдэг явдал юм гэж би бодож байна. Та гэнэн даалгавар шиг онилж, дараа нь та өгөгдлийн хольцоо бий болгож, доод урсгалын даалгавруудын гүйцэтгэлийг хадгалж чадах ямар нэгэн алгоритмыг харуулахыг хичээдэг. Гэхдээ дараа нь бид бүгдээрээ юунд санаа тавьдаг вэ гэвэл үнэхээр, үнэхээр сонирхолтой, нарийн төвөгтэй ажлууд байдаг, тийм ээ? Мөн бид эдгээрт бараг сайн үнэлгээ өгдөггүй.Хэрэв та тэдний саяхан шинэчилсэн Gemini 1.5 техникийн баримт бичигт гүн гүнзгий шумбах юм бол энэ нь шинэ шинэчлэлтүүдтэй гайхалтай нийтлэл байлаа. Хэрэв та тэдний бүх урт хугацааны контекст үнэлгээг тэнд харвал тэдний ихэнх нь нээлттэй нийгэмлэгийн хийж чадах зүйл биш юм шиг, учир нь тэд зүгээр л энэ загвар нь үнэхээр уялдаатай асар том хичээлийн төлөвлөгөө гаргасан эсэхийг үнэлэхийн тулд багш нарыг хөлсөлсөн.Эсвэл та хэд хэдэн сэдвийн мэргэжилтнүүдийг хөлсөлж авдаг шиг, эсвэл тэд дэлхийн 200 гаруй хүн л мэддэг устаж үгүй болсон хэлний хэлний орчуулгыг хэрхэн хийхийг загварт зааж өгсөн шиг. Эрт үе шаттай стартаптай ижил судалгаа хийх нь бидэнд хэцүү байдаг.

Swyx [00:29:50]: Техникийн хувьд, одоо та Gemini-г шүүгчээр ашиглаж болно гэсэн үг, Gemini тэдний маш их чадвар, нөөц багатай хэлийг сурталчилж байна. Өмнө нь ийм төрлийн өгөгдлийн сэдвээр өөр нэг зүйл бол танд синтетик өгөгдлийн хайгуул байсан уу? Та Мистралыг ашиглан өгөгдлийн багцын одоо байгаа зарим хэсгийг дахин тайлбарлаж, илүү олон жетон, үүнтэй төстэй зүйл үүсгэж болно, эсвэл өөр төрлийн синтетик өгөгдлийн талаар дурдахаар сонгосон гэж бодож байна уу?

Марк [00:30:13]: Бид GPT-4-ийг ашиглан чатын өгөгдлийн зарим талыг дахин тайлбарлах, дахин форматлах эсвэл загварт харж болох шинэ төрлийн жетон, хэл, өгөгдлийн төрлийг бий болгоход ашигласан. Мөн түүнчлэн бага магадлалтай, зөв, эсвэл домэйноос гадуурх өгөгдлийн бага хамааралтай тохиолдлуудыг авахыг оролдохтой адил бөгөөд бид үүнийг загварт оруулахыг хүссэн. Тиймээс би үнэндээ маш олон шуудуу мэдээллийн хоолойд байгаа гэж бодож байна.Ихэнх нийтлэлүүд өгөгдлийн багц үүсгэх талаар маш нарийн ширийн зүйл хийдэггүйг та анзаарах болно, учир нь би сонирхолгүй зарим талууд байдаг, тийм ээ? Энэ нь бид олон хүнд мөнгө төлж, маш олон сайн өгөгдөл үүсгэсэн гэх мэт. Гэхдээ дараа нь синтетик өгөгдөл үүсгэгч дамжуулах хоолой өөрөө заримдаа таны элэгдэлд дассан бүх өгөгдлийн багцын 25% эсвэл 50% байж болно.

Swyx [00:31:08]: Тийм ээ, би үүнийг зөвхөн хуулийн дагуу үгүйсгэх зорилготой гэж бодож байна.

Swyx [00:31:13]: Үгүй ээ, хэтэрхий уйтгартай байна. Хэт уйтгартай учраас би юу ч хэлэхгүй гэдгийг та мэднэ. Үгүй ээ, энэ үнэхээр сонирхолтой юм. Гэвч үнэн хэрэгтээ энэ нь хэтэрхий сонирхолтой байж магадгүй юм. Тиймээс бид энэ талаар юу ч хэлэхгүй.

Алессио [00:31:21]: Надад байсан бас нэг асуулт бол LoRa дээр байсан бөгөөд эдгээр чадваруудын заримыг нь гаргаж, өөр загварт авчрах явдал байв. Та Вэнгийн ажлын талаар дурдсан. Тэрээр бид энэ LoRa адаптерийг Gradient 1 сая контекст өргөтгөлд зориулж авах гэж байгаа талаар жиргэсэн бөгөөд та үүнийг өөр загварт ашиглах боломжтой болно. Та эдгээр зүйлс хэлний загвартай хэрхэн ажилладагийг хүмүүст ерөнхийд нь тайлбарлаж чадах уу? Тогтвортой тархалттайгаар танд өөр өөр хэв маягийн LoRa засварууд байгаа гэдгийг хүмүүс ойлгож байгаа гэж би бодож байна.Энэ нь LLM-тэй ижил төстэй ажилладаг уу? Мөн энэ нь функциональ байдлын тухай юм уу? Та LoRa засваруудыг тодорхой мэдлэгтэй хийж чадах уу? Тэнд орчин үеийн байдал ямар байна вэ?

Марк [00:31:58]: Тийм ээ, би загвар алхими гэж нэрлэх зүйлд тодорхой хэмжээгээр асар их сэргэлт байгаа гэж бодож байна, учир нь та эдгээр бүх LoRa-г авч, хольж хутгаж байгаа. Дараа нь энэ бол Чарльз Годдард болон нээлттэй нийгэмд байгаа бусад олон зүйлийг нэгтгэдэг маш олон загвар юм, тийм ээ? Учир нь энэ бол үнэхээр хялбар арга юм. Та сургалтанд хамрагдах шаардлагагүй бөгөөд загвар өмсөгчдийг шалгаж, үнэлж, хамгийн сайн ур чадвар, хольж, тааруулж болно.Таны хэлж байгаа шиг ижил төрлийн эмпирик судалгаа тийм ч их байгаагүй гэж би бодож байна ... Энэ нь тодорхой хэмжээгээр тогтвортой тархалт шиг тайлбарлах боломжгүй юм. Учир нь бид Wing-тэй ижил аргачлалаар бэлчир авч, аль хэдийн бэлтгэгдсэн загвараас бэлчир авч, энэ нь нэг ёсондоо ROHF давхаргыг хэрхэн бий болгосныг харахыг хичээгээрэй.LLAMA зааврын давхаргыг авч, үндсэн загварыг хасч, дараа нь LoRa адаптерийг өөр загварт ашиглахыг оролдож, энэ нь түүнд юу нөлөөлж байгааг хараарай. Гэсэн хэдий ч энэ нь нөлөө үзүүлж байх шиг байна. Энэ нь заримдаа хэр үр дүнтэй болохыг би үнэхээр гайхдаг гэж худлаа хэлэхгүй. Гэхдээ илүү нарийн төвөгтэй чадваруудын хувьд илүү загварлаг зүйлээс бусад тохиолдолд энэ нь унадаг гэдгийг би анзаарч байна. Учир нь энэ нь мэдрэлийн сүлжээнд илүү гүнзгий замыг шаарддаг байж магадгүй юм, тийм үү?Энэ бүх зүйл, эдгээр жин бол зүгээр л асар том замуудын мод бөгөөд сонирхолтой зүйл бол тодорхой хэмжээгээр бага явдаг зам юм. Тэгээд л харгис хэрцгий зүйлсийг ингэж нэгтгэж байхдаа та үргэлж юу гарахаа сайн мэдэхгүй байна.Та зангиагаа нэгтгэсэн өөр олон судалгаа байдаг бөгөөд танд зөвхөн жин дээр онцгой үнэ цэнийн задралыг үр дүнтэй хэрэглэж, хамгийн чухалыг нь авч, бусад бүх давхаргад хөндлөнгөөс оролцохоос урьдчилан сэргийлэх эдгээр бүх төрлийн арга техникүүд байдаг. Гэхдээ энэ нь хөгжүүлэгчдийн нийгэмлэгээс маш сонирхолтой гэж би бодож байна. Энэ нь маш их зорилтот учраас өнөө үед тэргүүлэгчдийн самбарыг тодорхой хэмжээгээр бохирдуулж байгааг эс тооцвол илүү ихийг харахыг хүсч байна.Одоо та бүх шилдэг загваруудыг олж, дараа нь үүнийг хийхийн тулд тэдгээрийг нэгтгэснээр хэмжигдэхүүнийг тоглож болно. Тэгээд би зүгээр л нэг сүүлчийн хэсэг нь үндсэндээ миний хувьд хамгийн сонирхолтой хэсэг гэдгийг нэмж хэлье. Хүмүүс сургалтын үйл явцыг богиносгох гэх мэтээр буулгахыг оролдож байгаа үе юм. Тиймээс тэд буулгагчдыг авч, нэгтгэж, дараа нь тэд нарийн тааруулах болно.Нарийн тааруулж, бүх шинэ нийлсэн загваруудад бага зэрэг дуу чимээг дахин эхлүүлэх нь танд энэ чадварт бага зэрэг хурдан хүрэх сургалтын тактик юм.

Swyx [00:34:45]: Тэнд маш их зүйл бий. Холбоосуудыг нэгтгэх нь онцгой үнэ цэнийн задралтай харьцуулах нь надад үнэхээр таалагдаж байна. Би цаасыг хараад та үүнийг хэлэхээс нааш би үүнийг тийм өндөр түвшинд ойлгосон гэж бодохгүй байна. Бид жишиг үнэлгээ рүү шилжих ёстой. Энэ бол маш хөгжилтэй сэдэв юм. Өвсөнд зүү. Таны бодол санаа, мэдрэмж юу вэ? Тэгээд бид эхлээд бусад жишиг үзүүлэлтүүдийг ярилцаж болно, гэхдээ өвсөнд зүү.

Марк [00:35:04]: Та намайг үүнтэй хамт газар дээр нь тавихыг хүсч байна уу? Тийм ээ, миний бодлоор өвсөнд зүү хийх нь тухайн бүтээлийг хүмүүст ойлгомжтой байдлаар танилцуулах, мөн нотлох стандарттай адил юм. Загвар өмсөгчдөд илүү цогц хэлний ойлголт, зааварчилгаа гэх мэт аль алиныг нь хослуулсан зүйл хийх боломж олгохын тулд үүнийг давах ёстой анхдагч зүйл гэж би үзэж байна, тийм ээ?Үнэнийг хэлэхэд, хэрэв та урт контекстийн практик хэрэглээний талаар бодож байгаа бол энэ нь ихэвчлэн олон контекстийг оруулахад хүмүүс загвар өмсөгчдийн талаар хамгийн их гомдоллодог зүйл бол хэлний загвар нь таны хүссэн зүйлд огт хамаагүй юм. эсвэл хий үзэгдэлээс урьдчилан сэргийлэхийн тулд эх сурвалж болгон ашиглахыг хүсч буй контекстийг ялгах боломжгүй юм. Биднийг үүнийг хийж байх үед энэ нь зөв зам дээр байгаа эсэхийг шалгах явдал байсан гэж би бодож байна.Грег хүн бүрийн хийж чадах хэмжүүр, жишиг үзүүлэлтийг бий болгоход үнэхээр гайхалтай ажилласан гэж би бодож байна

Swyx [00:36:00]: ойлголоо.

Марк [00:36:00]: Энэ нь зөн совинтой байсан. Тэр ч байтугай тэр өөрөө ч гэсэн бид үүнийг даван туулах ёстой гэж хэлдэг. Гэхдээ үүнтэй холбогдуулан бид илүү хэцүү жишиг үзүүлэлтүүдийн захирагчийн багц дээр үнэлгээ хийсэн нь том шалтгаан юм. Тэд үнэндээ эдгээр жишиг үзүүлэлтүүдэд зүүг өвсөнд оруулдаг. Мөн би Gemini-ийн өвсөн дэх олон зүү шиг гаргасан жишиг үзүүлэлтээс ч илүү өргөн хүрээтэй гэж маргах болно. Тиймээ.

Swyx [00:36:26]: Та нэлээд хэдэн зүйлийг дурдсан. Та RULER, LooGLE, хязгааргүй вандан сандал, хулс, ZeroSCROLLS-ийн талаар дурдсан. Та бидэнд онцгой сонирхолтой эсвэл сорилттой гэж бодсон хоёр, гурвыг нь өгөхийг хүсч байна уу, юу таны хувьд бусдаас ялгарах болсон бэ?

Марк [00:36:37]: Маш олон бөгөөд тэд маш нарийн ширийн зүйл юм. Тийм ээ, тэг гүйлгэх нь өнгөрсөн жил гарч ирсэн гэж сонссон анхны гүйлгээ байсан гэж би хэлмээр байна. Мөн энэ нь урт контекстийг хянах хувьсагчтай адил байсан. Энэ бол миний оюун санаанд хамгийн шинэлэг зүйл учраас би захирагч руу орох болно. Тэгээд бид үүнийг маш их шалгаж, өмнөх хоёр дахь үнэлгээг хийж байна.

Swyx [00:36:56]: долоо хоног.

Марк [00:36:56]: Гэхдээ захирагч дөрвөн өөр төрлийн үнэлгээтэй байдаг шиг. Тэгэхээр эхнийх нь яг л өвсөнд зүү юм. Олон зүү шидэж байгаа юм шиг. Тэгэхээр та хэд хэдэн гол утгын хосыг олж авах хэрэгтэй. Үндсэндээ ялгах хэрэгтэй өөр нэг зүйл бий.

Swyx [00:37:13]: Олон утгатай, олон асуулт. Тиймээ тиймээ.

Марк [00:37:15]: Олон утгатай, олон асуулт. Энэ бол абляци юм. Мөн та хаашаа явж байгааг хянах хувьсагч байдаг, хөөе, хэрэв X нь үүнтэй тэнцүү бол Y нь Z-тэй тэнцүү, энэ хувьсагч нь юу вэ? Тэгээд та үүнийг бүх контекстээр нь хянах хэрэгтэй. Тэгээд эцэст нь хураангуй статистикийг бий болгохтой адил нэг зүйл бий. Тиймээс та бүхэл бүтэн контекстийг хамарсан үгийг сонгоод дараа нь үүнийг тоолох хэрэгтэй. Тэгэхээр энэ нь илүү цогц бөгөөд арай илүү хэцүү байдаг.Дараа нь энэ мөчид надаас зугтсан өөр хэд хэдэн зүйл байна. Гэхдээ захирагч таныг үнэхээр түлхэж байна. Хэрэв би үнэлгээний явцын талаар бодох юм бол энэ нь загварыг контекстийг бүхэлд нь ойлгоход хүргэж эхэлдэг. Хүн бүрийн хэлж байгаачлан, би зүгээр л нэг удаагийн зураг авалтын төлөө 10 доллар төлөхийн оронд тэр хувьсагчийг зүгээр л авах дуртай байхын тулд зүгээр л хайлт шиг ашиглаж болохгүй гэж үү? Хэдийгээр энэ нь тийм ч үнэтэй биш юм.Бидний хэрэглээний зарим тохиолдлуудад хүртэл миний тэмцэж байсан гол зүйл бол контекст нь олон баримт бичигт тархсантай адил байсан бөгөөд та олж авах алхамд үнэхээр нарийн сантехник хийх дуртай байсан. Гэхдээ энэ нь зөвхөн үүний төлөө л ажилладаг, тийм ээ? Тэгээд та бусад баримт бичгүүдийг оруулаад, өө, гайхалтай, миний хайлт холбогдох контекстийг авахаа больсон. Тэгэхээр энэ бол мөрөөдөл, тийм ээ? Ингэж үнэхээр сайн дүгнэж чадах загвар авах тухай.

Swyx [00:38:38]: Тийм ээ, бүхэлдээ. Грег зүү, хадлангаас цааш явах ёстой гэж хэлэхдээ үүнийг дурдсан байх гэж бодож байна. Та саяхан 1 саяас 4 сая токен контекст хүртэл сунгасан гэж хэлсэн. Мөн та жишиг үзүүлэлтүүдээс зарим нэг доройтол олж харсан. Та үүнийг хэлэлцэхийг хүсч байна уу?

Марк [00:38:53]: Хэрэв та тэр үед бидний тета утгыг харвал энэ нь үнэхээр том болж байна. Тиймээс хөвөгч цэгийн нарийвчлалын талаар бодож, үндсэндээ одоо та хангалттай гүн сүлжээнд орж, маш олон жетоноор хамтарсан магадлалыг хийх шаардлагатай асуудалтай тулгарч эхэлж байгаа талаар бодож үзээрэй. Тэнд та нарийвчлалын дээд хязгаарт хүрч байна. Мөн сургалтын хүрээнд бидний хийх ёстой зарим идэвхжүүлэлтийг дарах зарим тал байж магадгүй юм.Магадгүй энэ нь зүгээр л дэлбэрэхгүй байхын тулд бидний ашигладаг тета утгын талаар дүгнэлт хийх үед ч тохиолддог. Хэрэв та хэзээ нэгэн цагт дэлбэрч буй градиент эсвэл алга болж буй градиент асуудал шиг тулгарах шаардлагатай байсан бол та миний юу яриад байгааг мэдэх болно.Үүний олон эмпирик тал, эдгээр зүйлсийг өргөжүүлэх нь туршилт бөгөөд та эдгээр үнэхээр төвөгтэй нийлмэл функцуудыг хэрхэн маршал болгох вэ гэдгийг олж мэдэх бөгөөд ингэснээр тэд зүгээр л нэг цэг дээр тэг асуудал дээр хуваах дургүй байдаг. Гайхалтай.

Алессио [00:39:55]: Зүгээр л боож хэлэхэд, эд зүйлс байдаг, дараа нь хүмүүст санаа тавьдаг зүйл байдаг. Та мэдэж байгаа, хоёр зүйл байдаг. 1 саяас дээш хүмүүст санаа тавьдаг гэж та харж байна уу? Учир нь Жем бид хоёр 2 сая зарлалтай байсан бөгөөд хүмүүс 1 сая, 2 сая, энэ нь юу ч байсан гэж бодож байна. Хүмүүсийг дахин халамжлахын тулд 10 саяд хүрэх хэрэгтэй гэж та бодож байна уу?

Swyx [00:40:13]: Тиймээ.

Алессио [00:40:14]: Бид 100 саяд хүрэх шаардлагатай юу?

Марк [00:40:16]: Энэ бол нээлттэй асуулт гэсэн үг. Сая хүн бидний сэтгэлийг хөдөлгөж байсан тоо шиг санагдсан гэж би хэлэх нь гарцаагүй. Тэгээд 4 сая гэдэг нь нээлтийн үе шат гэхээсээ илүүтэй дараагийн шат дамжлагатай шалган нэвтрүүлэх цэг юм. Google хүртэл өөрсдөө үнэлж, тусгайлан тодорхойлохыг хичээж байгаа гэж бодож байна, та эдгээр загваруудын чанарыг хэрхэн хэмждэг вэ?Мөн та эдгээр чадваруудыг хэрхэн хэмжиж, зураглал хийх вэ?

Swyx [00:40:49]: Зөв.

Марк [00:40:49]: Мөн бид компанийн хувьд контекст цонхыг хэрхэн дүүргэх талаар бодож байгаа гэж бодож байна. Тэгэхээр кодын агуулах асар том учраас код нь ойлгомжтой. Тэгэхээр та репогийн контекстийг бүхэлд нь загварт оруулаад дараа нь ашигтай модуль эсвэл ашигтай санал болгож чадах уу?Гэсэн хэдий ч, альфа кодчилол, урсгалын инженерчлэл гэх мэт өөр аргууд байдаг гэж би хэлмээр байна, хэрэв та давталттай зүйлсийг илүү агент хэлбэрээр хийвэл энэ нь илүү сайн чанарыг бий болгож чадна. Хүмүүс яг одоо илүү сайн мэддэг, энэ нь сесс шиг контекст байнга хувьсан өөрчлөгдөж байдаг хэрэглээний тохиолдлоос эхэлж магадгүй гэдгийг би урьдчилж хэлэх болно, тийм ээ? Та кодлож байх зуураа тийм үү?Хэрэв та байнгын эргэлт бүрт олон эргэлт хийж байгаа газартаа үнэхээр үр дүнтэй болохыг олж мэдэх юм бол нюанс шинж чанартай бөгөөд та загвар замын төлөв байдлыг бий болгохыг мэддэг зорилтот үетэй бөгөөд цаг хугацааны явцад төрийн удирдлагатай байх нь үнэхээр хэцүү юм. үнэхээр хэцүү. Мөн энэ нь үнэхээр хэцүү үнэлгээ нь танд асар том нөхцөл байдал үүссэн үед л үнэхээр үр дүнтэй байх болно. Тиймээс бид ийм төрлийн талуудыг олохыг хичээж байгаа зүйл юм. Та мөн үүнийг зураглаж болно.Энэ нь зөвхөн кодын төрийн удирдлага байдаггүй. Бид хөрөнгө оруулалтын менежмент гэх мэт санхүүгийн салбарт маш их ажилладаг, үзэл баримтлал шиг төрийн удирдлагатай, урт хуралдаан шиг хувьсан өөрчлөгддөг. Тиймээс бусад хүмүүс урт контекстийн талаар юу гэж бодож байгааг сонсоод маш их баяртай байна. Google одоохондоо тэрбумыг авах гэж хөрөнгө оруулалт хийхгүй байгаа байх гэж бодож байна. Тэд аль хэдийн хийсэн зүйлээ хэрхэн бүрэн ашиглах талаар бодож байгаа гэж би бодож байна.

Алессио [00:42:39]: Энэ нь маш удаан чатлах, олон баримт бичигтэй харьцуулахад таны оюун санаанд өөрчлөгддөг үү? Чат нь интерактив шинж чанартай, мэдээлэл өөрчлөгддөг. Баримт бичгүүд нь улам олон зүйлийг нэгтгэхийг хичээж байна. Тиймээ. Эдгээр хоёр ажлын ачаалал юугаараа ялгаатай вэ?

Марк [00:42:54]: Баримт бичгийн тал дээр би хэлмээр байна, та бусад арга зүйг өөрчлөх арай илүү чадвартай байж магадгүй юм. Та заримдаа урт контекстийг тойрон гарч, сайжруулсан үеийг олж авах эсвэл шаталсан рекурсив хураангуй хийх боломжтой, харин тухайн төлөвийн хувьсагч нь сесс шиг хувьсал нь нэлээд хурдацтай өөрчлөгдөж болох тул.Үнэхээр тодорхой ажлын урсгалыг кодчилолгүйгээр эсвэл детерминизмд дуртай болж байгаа төрийн ямар нэгэн заалт шиг үүнийг даван туулах нь танд арай хэцүү байна. Зөв. Эцэст нь хэлэхэд, хүмүүсийн хийх гэж байгаа зүйл бол эдгээр бүх буудлага цаг хугацааны явцад хэрхэн ахиц дэвшил гарсныг олж мэдэх явдал юм. Татаж авах алхамын хэврэг байдлаас хэрхэн ангижрах вэ? Хэрэв та мянган цохилт эсвэл 2000 цохилт хийвэл энэ нь зүгээр л сайн жишээнүүдийн олж авах талыг хамааралгүй болгох уу?Энэ үед санамсаргүй түүвэрлэлт хийх нь зүгээр юм шиг. Үнэн хэрэгтээ тэд CMU-аас цөөн хэдэн олборлолт, ангилал, өндөр кардиналь жишиг үзүүлэлтүүдийн талаар харуулсан баримт бичиг байдаг бөгөөд тэд контекст суралцахын эсрэг контекст суралцахын тулд нарийн тааруулж, олон, контекст суралцахын тулд олон удаа буудсан байдаг. Мөн тэд үндсэндээ контекстэд суралцах олон, олон зураг авалт нь жишээнүүдийн эргэн тойронд тийм их мэдрэмжтэй байхаас урьдчилан сэргийлэхэд тусалдаг гэдгийг харуулсан, тийм үү?Олон LLM-ийн анхаарал сарниулах алдаа шиг, учир нь энэ нь таны хамааралгүй контекстийг өгдөг бөгөөд энэ нь хүн шиг болж хувирдаг тул шууд утгаараа даалгавраа хийж чадахгүй, тийм ээ? Та маш тодорхой хэлэх ёстой юм шиг, би энэ хүний анхаарлыг сарниулахыг хүсэхгүй байна, учир нь тэд туулайн нүхэнд бууж, даалгавраа биелүүлж чадахгүй. Тиймээ.

Алессио [00:44:37]: За, энэ бол өвсөнд хийсэн зүүний эсрэг тал юм. Яг одоо загвар өмсөгчид бүх зүйлд маш их дуртай байдаг шиг. Заримдаа тэдэнд таалагдахад хэцүү байдаг шиг, би зүгээр л нэг удаа хэлсэн, үүнийг дахиж битгий гаргаж ирээрэй. Энэ нь надад кодтой тохиолддог гэдгийг та мэднэ. Тиймээ. Энэ нь надад заримдаа CSS загвар шиг эсвэл үүнтэй төстэй зүйл тохиолддог.Хэрэв би удаан ярилцвал энэ нь үргэлж тодорхой хэв маягийг дахин ашиглахыг хичээдэг, гэхдээ би үүнийг хийх нь зөв арга биш байж магадгүй гэж хэлсэн. Гэхдээ тийм ээ, хүмүүс үүнийг хийх болно гэсэн эмпирик зүйл дахин их байна. Зүгээр л, бид техникийн олон талыг туулсан гэдгийг би мэдэж байна, гэхдээ магадгүй эсрэг тал нь яагаад үүнийг хийх нь зүйтэй вэ? Хүмүүс урт контекстийг үнэхээр ашигтай болгодог хэрэглээний тохиолдлууд юу вэ? Танд эрүүл мэндийн тусламж үйлчилгээний хэрэглээний олон тохиолдол байгаа гэж би бодож байна.Би танай твиттер хуудаснаас харсан, та сая санхүүгийн хэрэглээний тохиолдлыг дурдлаа, компаниудын нийтэлдэг зарим мэдүүлэг, баримт бичиг нь үнэхээр үнэ цэнэтэй байх нь ойлгомжтой. Таны ярихыг хүссэн бусад зүйл, магадгүй хүмүүс градиентийг хэрхэн ашиглаж байгаа гэх мэт энэ нь хүмүүст илүү тодорхой дүр зурагтай болоход тусална гэж би бодож байна. Тиймээ.

Марк [00:45:35]: Тэгэхээр энэ нь зөвхөн хуралдааны нөхцөл байдлыг ашиглах, төрийн менежментийг хөгжүүлэхээс гадна хүн бүрийн хийж, ажиллахыг хичээж байгаа зүйл бол хэлний загварыг хэрхэн үндэслэх вэ гэдэг нь үнэхээр ойлгомжтой зүйл юм. илүү сайн уу?Тиймээс та цэвэр текстийг бодоход энэ нь нэг зүйл юм, гэхдээ дараа нь олон талт байдал нь урт контекстэд чухал ач холбогдолтой байх болно гэж би бодож байна, учир нь та секундэд кадр руу орж, маш олон зураг руу орох болно. мөн илүү их тусгагдсан зүйлсийг та илүү их жетон ашиглаж, хөшүүрэг болгох хэрэгтэй.Эндээс л бид компанийн хувьд илүү ихийг судалж, илүү олон хэрэглээний тохиолдлуудад үүд хаалгыг нээхийг хичээж байгаа байх, учир нь би санхүүгийн үйлчилгээ, эрүүл мэндийн салбарт бид сайн ажилласан гэж бодож байна. Технологийн тал дээр ажилладаг, гэхдээ бид үгтэй график эсвэл хэн нэгний эмнэлгийн дүр төрх гэх мэт үгтэй зургийг үгтэй хослуулахдаа бага зэрэг урагшлах шаардлагатай хэвээр байна. Та мэдээж илүү сайн ажил хийж чадна.Мета олон төрлийн сургалт явуулдаг шинэ хамелеон цаасыг саяхан гаргасан бөгөөд энэ нь эрт хайлуулах нь илүү үр дүнтэй болохыг харуулж байгаа тул энэ нь бас цаг үеэ олсон гэдгийг та мэднэ, тийм ээ? Тиймээс ирээдүйн талаар ийм үзэл бодолтой байх нь бидний бэлтгэлтэй байхыг хүсдэг зүйл юм, учир нь энэ нь Сэм Алтманы өөрийнх нь хэлсэнтэй төстэй юм, тийм ээ? Эдгээр загварууд ойрын хэдэн жилд 10 дахин илүү байх болно гэж та таамаглах хэрэгтэй.Хэрэв та үүнд бэлтгэгдсэн бол та зүгээр л хувилбар, үйл явдал болгоны дараа эргэлдээд зогсохгүй, унадаг бизнестэй болно.

Swyx [00:47:12]: Энэ 10x асуудлын гол зүйл бол 10x чиглэл байнга хөдөлдөг гэж би бодож байна. Зарим хүмүүс GPT-4.0-ийн ELO оноо нь бодит байдал дээр GPT-4.0-ээс тийм ч өндөр биш байсан гэж GPT-4.0 Turbo гэж гомдоллож байсныг та мэднэ. Тэгээд үнэхээр учир шалтгааны хувьд 10 дахин сайн биш, олон аргыг нэгтгэх нь ердөө 10 дахин дээр юм. Дашрамд хэлэхэд, эндээс хараарай, үнэхээр тачаангуй дуут чатын аппликейшн байдаг бөгөөд тэд өнөөдөр санамсаргүйгээр элэгдүүлэхээс өөр аргагүй болсон.10x чиглэл хөдөлж байна. Одоо энэ нь олон төрлийн газар шиг бүрэн дүүрэн байх шиг байна, тийм ээ? Мөн та нар шиг 10x нь янз бүрийн аргаар боломжтой, гэхдээ та нар шиг 10x контекст урттай, гэхдээ бид сүүлчийн дайныг хөөж байна уу? Яагаад гэвэл одоо хэн ч контекст уртад санаа тавьдаггүй юм шиг, одоо энэ нь олон төрлийн цаг шиг байна, та мэдэх үү? Би тоглож байна, хүмүүс үүнд санаа тавьдаг нь ойлгомжтой. Энэ 10x зүйлийн талаар энэ тайлбар бүр яаж байгааг би гайхаж байна.

Марк [00:48:01]: Үнэнийг хэлэхэд, бид та нараас гадна нийгэмд анхаарлаа хандуулдаг гэдгийг та мэднэ, тийм үү? Танай нийгэмлэг болон таны сонссон зүйлсийн нэгэн адил бид хаана ч бүтээхийг хүсч байна, бид хэрэглэгчдэд зориулж бүтээхийг хичээж, тэдэнд юу хэрэгтэйг ойлгохыг хичээж байна. Мэдээжийн хэрэг, та хүмүүсийн бүтээхийг хүссэн бүх зүйлийг бүтээдэггүй, гэхдээ бид юу болохыг мэддэг, тийм ээ? Учир нь би чамайг яг тэнд байгаа гэж бодож байна.Хэрэв бид тодорхой чиглэлд 10 дахин илүү сайн зүйл хийхийг хүсч байгаа ч хэн ч тоохгүй, хэн нэгэнд ашиггүй бол энэ нь үнэхээр үнэ цэнэтэй зүйл биш байсан. Хэрэв ямар нэг зүйл бол энэ нь маш олон технологийн гарааны бизнес эрхлэгчдэд зориулсан гашуун хичээл 2.0 байж магадгүй юм. Энэ нь хүмүүст санаа тавьдаг барилгын технологитой адил бөгөөд ердөө 10 дахин хэцүү технологи бүтээхийн оронд тэдний үнэ цэнийг 10 дахин нэмэгдүүлэх болно.

Swyx [00:48:48]: Энэ бол гашуун сургамж биш гэсэн үг. Энэ бол зүгээр л Пол Грахам.

Swyx [00:48:53]: Хамелеоны цаасан дээр бас нэг зүйл байна. Би энэ тухай ярих гэж байсан юм байна ш дээ? Тиймээс AI News, миний өдөр тутмын мэдээллийн товхимол дээр энэ бол миний хамгийн сүүлийн үеийн онцлох нийтлэл байсан. Мөн та галт тэрэгний зургийг үгтэй ижил далд орон зайд ангилж чадах уу гэж би үргэлж боддог. Энэ нь одоо бидний хожуу хайлуулах загвар гэж нэрлэдэг лаав, фламинго болон бусад бүх зүйлийг хийсэн. Харин одоо хамелеон гэх мэт анхны хайлуулах загварууд урагшлах зам байх шиг байна.Мэдээжийн хэрэг, энэ нь илүү уугуул юм. Та одоо байгаа Лам 3 загварыг авч, зургийг текстийн кодлогч руу эрт хайлуулж болох ямар нэгэн хачирхалтай техникийг олж мэдэх үү гэж би гайхаж байна. Тиймээ.

Марк [00:49:34]: Хамелеон цаас гарахаас өмнө энэ нь магадгүй судлах эсвэл бидний хоцрогдсон санаануудыг судлах зорилготой байсан гэж би бодож байна, тийм ээ? Учир нь таны хэлсэнчлэн, энэ цааснаас өмнө ч би санахгүй байна. Миний бодлоор Мета илүү эрт хайлалтыг судалдаг олон талт цаасны масштабын хууль шиг байсан. Үүнийг харсан тэр мөчид эцэст нь энэ нь бага зэрэг түгээмэл болох цэгт хүрэх нь бидэнд тодорхой болсон.Тийм ээ, энэ бол бидний бас бодож байсан гайхалтай эргэлт, түүнчлэн бусад ажилд бага зэрэг илүү төлөөлөгчтэй байдаг. Гэхдээ нээлттэй хамтын ажиллагаа таныг сонирхож байвал бид үргэлж энэ талаар хамтран ажиллах боломжтой.

Swyx [00:50:14]: олон нийт. За. Тэнд хашгир. Төгсгөлд нь та үүнийг үйл ажиллагааны дуудлагад үлдээж болно. Бидэнд үүнийг дуусгах хэд хэдэн асуулт байна. Та ажилдаа маш олон баримт бичгийг дурдсан. Та бас компани байгуулж байна. Та мөн нээлттэй эхийн төслүүд болон олон нийтийг хайж байна. Таны өдөр тутмын эсвэл долоо хоног тутмын хиймэл оюун ухаанаа дээд зэргээр хадгалахын тулд юу хийдэг вэ?

Марк [00:50:31]: Тэгэхээр нэг нь, AI News-т бүртгүүлээрэй. Тэр үүнийг хэлэхийн тулд надад мөнгө төлөх шаардлагагүй байсан. Би үүнийг үнэхээр сайн нэгтгэгч гэж бодож байна. Би үүнийг сайн нэгтгэгч гэж бодож байна.

Swyx [00:50:40]: Яагаад гэдгийг нь хэлье.

Марк [00:50:41]: Тэнд хийгдэж буй хамгийн хурдан сэтгэл хөдөлгөм судалгааны ихэнх нь ихэвчлэн Twitter дээр байдаг. Гурван жилийн өмнө би Твиттерийн хүчирхэг хэрэглэгч байгаагүй, гэхдээ би үүнийг ашиглах ёстой байсан бөгөөд хүмүүсийн ярихыг хүсч байсан эсвэл одоо байгаа эхний ажлыг үргэлжлүүлэхийн тулд үүнийг үргэлж шалгаж байх ёстой байсан. Учир нь ICLR эсвэл ICML-д дуртай судалгааны материал ирүүлэхийн эсрэг юу ч байхгүй, орчин үеийн байдлыг мэддэг, эдгээр нь зургаан сар хоцорч байна, тийм үү?Хүмүүс үүнийг архивт аль хэдийн хаясан эсвэл зүгээр л илэн далангүй ярьж байна. Тэгээд резин замд хэзээ хүрэхийг харахын тулд Discord дээр байх, тийм ээ? Таны хэлсэн шиг хийж буй хэрэгжилт, практик эсвэл өгөгдлийн багц. Үнэхээр сайн өгөгдлийн багцын талаар маш олон яриа өрнүүлж, тэдгээрийг хэрхэн бүтээх талаар ил тод ярилцаж, үүнийг олж мэдэх болно. 10 сая долларын төсөвгүй хүмүүсийн хувьд та зүгээр л олон тооны тайлбарлагч төлдөг.Тиймээс миний өдөр тутмын ажил бол сэрэхдээ хийдэг хоёр дахь зүйл бол үнэхээр, үнэхээр гайхалтай ажил хийдэг тодорхой хүмүүсийн хамгийн сүүлийн үеийн шинэчлэлтүүд юу болохыг Twitter-ээс харах явдал юм. Хамелеон цаасыг хийсэн Мета дахь Армин, түүний Twitter дээр бичсэн бүхэн алт шиг байдаг. Тиймээс тэр тэнд ямар нэгэн зүйл бичих болгонд би түүний юу хэлж байгааг олж мэдэхийг хичээж, дараа нь тэнд байгаа техник, судалгааны баримт бичигт уядаг. Тэгээд заримдаа би тодорхой хэрэгслийг ашиглахыг хичээдэг.Би өөрөө хиймэл оюун ухааныг ашиглан тодорхой сэдвээр хамгийн сүүлийн үеийн нийтлэлүүдийг хайж олох болно. Эцсийн эцэст, бүтээгдэхүүнийг бас туршиж үзэх болно. Хэрэв та багаж хэрэгсэл болон зарим бүтээгдэхүүнийг туршиж үзэхгүй бол хэн нэгний шахалтын алгоритмыг алдаж байна гэж би бодож байна. Тэд тэнд байгаа бүх судалгаа, бүх бодол санаа, орчин үеийн байдлыг шахаж, танд зориулж бүтээхийг оролдож буй бүтээгдэхүүн болгон хувиргасан шиг.Тэгээд үнэхээр ухарч, ийм зүйлийг бүтээхэд юу хэрэгтэй байсныг урвуу инженерчлэл. Энэ бол асар том, тийм ээ? Хэрэв та эргэлзээг үнэхээр ойлгож чадвал, жишээлбэл, та судалгаагаа аль хэдийн урагшлуулах болно.

Swyx [00:52:39]: Өө, дашрамд хэлэхэд, та сайн эргэлзэх оноо гэж юу болохыг дурдсан уу? Зүгээр л тоо байгаа биз дээ? Таваас найм гэх мэт. Та ингэж хэлэхэд тоо бодож байна уу? Тиймээ.

Марк [00:52:48]: Галт тэрэгний алдагдал болон төөрөгдөл хоёрын хооронд эргэлдэх нь миний хувьд хараахан уугуул биш гэдгийг хэлэх гэсэн юм. Гэхдээ хэрэв та LLAMA дээрх контекст уртын өргөтгөлийг ашиглан дөрөв авч чадвал та зөв чиглэлд байна. Тэгээд дараа нь та огцом өсөлтийг харах нь ойлгомжтой. Ялангуяа анхаарах ёстой нэг заль мэх бол таны контекст урт болон тета масштаб зөв ажиллаж байгааг мэдэх явдал юм. Хэрэв та эргэлзэж буй эхний алхамууд шууд доошоо орвол. Тиймээс энэ нь буруу байсан бол эхэндээ маш их хэлбэлзэх болно.Тэгээд бид бэлтгэлээ богиносгож, дараа нь шинэ тета масштабыг дахин туршиж үзэхээ л мэдсэн.

Swyx [00:53:19]: Та нарийн тааруулах эсвэл бүрэн бэлтгэл сургуулилтаа үргэлжлүүлж байна. Тиймээ тиймээ.

Марк [00:53:23]: Загвар өмсөгч тэр даруй домэйноос гадуур ямар нэг зүйлийг хараад, би юу хийхээ мэдэхгүй байна. Мөн энэ байрлалын суулгацыг бие биенийхээ дээр давхцуулахын тулд танд хэрэгтэй байна. Нэг дагах, тийм үү?

Swyx [00:53:34]: Биднийг хаахаас өмнө. Твиттерт байж, энэ бүх шинэ гарчигуудыг үзэх нь үнэхээр тустай гэж би бодож байна, гэхдээ дараа нь энэ нь танд зөвхөн гадаргуугийн түвшний ойлголтыг өгөх болно. Дараа нь танд алийг нь хөрөнгө оруулахаа шийдэх үйл явц хэрэгтэй хэвээр байна. Би юуг гүнзгийрүүлэх, юуг алгасахаа шийдэх томъёо юу болохыг ухахыг хичээж байна.

Марк [00:53:54]: Практикийн үүднээс авч үзвэл, компанийн хувьд бид 3-5 зүйл үнэ цэнэтэй, ашигтай байх болно гэдгийг би аль хэдийн мэдэж байгаа. Дараа нь янз бүрийн шалтгааны улмаас хамрах хүрээнээс гадуур бусад зүйлс бий. Хөөе, энэ нь бидэнд нөлөөлөхгүй, тус болохгүй. Дараа нь бид үүнийг хийж чадахгүй учраас бусад зүйлс хамрах хүрээнээс гадуур байна. Үүний үнэхээр сайн жишээ бол маш том хэмжээний хуваарилагдсан сургалтыг сайжруулах тусгай алгоритмууд юм.Бидэнд 2000 H100 авах боломж олдохгүй. Хэрэв тэгвэл үнэхээр сайхан байх болно. Гэхдээ би одоохондоо та ашигтай зүйлд хүрэх хэрэгтэй гэж хэлж байна. Үнэнийг хэлэхэд хүн бүрт хэрэгтэй зүйл бол үнэлгээ, сургалтын дараах өөр өөр арга техник, дараа нь синтетик өгөгдөл бүтээх явдал юм. Би үүнийг үргэлж эрэлхийлдэг. Тэгээд ямар шинэ мэдээ үнэхээр шинэлэг болохыг би яаж ойлгох вэ? За, энэ бол тодорхой хэмжээгээр миний оюун санааны нөөц юм.Би энэ төлөвийг бий болгосон, хүүе, би аль хэдийн тодорхой сэдвийн хүрээнд орчин үеийн байдалд зориулж бичсэн бүх зүйлийг аль хэдийн мэддэг болсон. Дараа нь би эмпирик судалгаа гэж юуг дахин боловсруулж байгааг мэдэж байгаа бөгөөд энэ нь үнэхээр ухааралтай зүйл юм. Тодорхой жишээг дутуу үнэлэгдсэн нь миний урьд өмнө хэзээ ч харж байгаагүй DeepSeek нийтлэл байх болно, гэхдээ олон толгойтой далд анхаарал.Энэ нь миний хувьд үнэхээр гэнэтийн зүйл байсан, учир нь би хүмүүс мэргэжилтнүүдийн холимогийг сонирхолтой арга болгон хуваахыг хүсдэг бүх арга замыг харсан гэж бодсон. Ямар нэг зүйл миний анхаарлыг татна гэж би хэзээ ч бодож байгаагүй, өө, энэ бол цоо шинэ юм. Энэ нь үнэхээр их үнэ цэнэтэй юм. Би үүнийг голчлон ингэж хийхийг хичээдэг. Мөн та сүлжээтэйгээ ярилцдаг.Би зүгээр л хүмүүстэй ярилцаж, дараа нь хурдан залгах талаар тодорхой сэдвийн мэргэжилтнүүдтэй байгаа эсэхийг мэдэж, мэдэж байгаа бөгөөд энэ нь бас таны анхаарлыг татдаг уу? Та үүнийг үнэ цэнэтэй эсвэл бодит гэж бодож байна уу? Учир нь энэ нь бидний яг одоо байгаа чимээ шуугиантай орон зай бөгөөд энэ нь үнэхээр сонирхолтой бөгөөд хүмүүс үүнд сэтгэл хөдөлж байгаа учраас дажгүй юм. Гэвч үүнтэй зэрэгцэн 10X ба түүнээс дээш тооны мэдээлэл орж ирж байгаа бөгөөд энэ бүхэн үнэхээр, үнэхээр өвөрмөц, шинэ сонсогдож байна.Мөн та туулайн нүхэнд хэдэн цаг зарцуулж болох бөгөөд энэ нь тийм ч ашиггүй юм. Гайхалтай, Марк.

Алессио [00:56:08]: Бид чамайг студид удаан байлгасан гэдгийг би мэдэж байна. Таны ажилд авч буй дүр байж болох хүмүүст зориулсан үйл ажиллагааны эцсийн дуудлага, гарааны бизнес эрхлэх хүсэлт, үзэгчидтэй хуваалцахыг хүссэн зүйл байна уу?

Марк [00:56:19]: Бид илүү олон хүнийг урт хугацааны контекст үнэлгээнд хамтран ажиллахыг уриалах нь гарцаагүй. Энэ бол мета, Google эсвэл бусад хүмүүсийн аль нэгнийх нь сэдэв юм, учир нь бид нийгэмд энэ талаар ойлголт дутмаг гэж бодож байна. Дараа нь бид олон нийтийн хувьд хос өгөгдлийн багц гэх мэт сонирхолтой байх өгөгдлийн багцын бусад хэлбэрийг бий болгоход тусалж чадах уу?Та зүгээр л шууд видео, дараа нь шууд текст авах боломжтой юм шиг, гэхдээ тэдгээрийг газардуулах зорилгоор нэгтгэх нь миний мэдэж байгаа дараагийн загваруудыг сургахад үнэхээр хэрэгтэй болно. Мөн бид үүнд хувь нэмрээ оруулах тусам үнэхээр хэрэгтэй байх болно. Гайхалтай.

Алессио [00:57:00]: Ирсэнд маш их баярлалаа, Марк.

Swyx [00:57:02]: Энэ их хөгжилтэй байсан.

Алессио [00:57:02]: Тийм ээ, маш их баярлалаа.

Марк [00:57:03]: Тийм ээ, энэ бол гайхалтай.