Tech

AI програм хангамжийн инженерийн агентууд хэрхэн ажилладаг вэ?

? Сайн байна уу, энэ бол зөвхөн Прагматик Инженерийн Мэдээллийн товхимолын захиалагчдад зориулагдсан дугаартай Gergely юм. Дугаар бүрт би Big Tech болон стартапуудад тулгарч буй сорилтуудыг инженерийн менежерүүд болон ахлах инженерүүдийн нүдээр дамжуулдаг. Ийм нийтлэлүүдийг ирсэн имэйл хайрцагтаа авахын тулд долоо хоног бүр дараах зүйлсийг бүртгүүлнэ үү.

Одоо бүртгүүлнэ үү

Гуравдугаар сард Танин мэдэхүйн лаборатори шүүрч авлаа Програм хангамжийн инженерүүдийн анхаарлыг "дэлхийн анхны хиймэл оюун ухааны программ хангамжийн инженер" гэж нэрлэсэн "Дэвин"-ийг зарлаж, шинэ стандарт тогтоосон гэсэн мессежээр зарлав. SWE-суудлын кодчиллын жишиг . Өнөөдрийн байдлаар Девин хаалттай эх сурвалжтай, хувийн бета хувилбарт байгаа тул энэ нь хэрхэн ажилладагийг бид мэдэхгүй бөгөөд ихэнх хүмүүс үүнд хандах боломжгүй.

Бидний аз болоход SWE-салбарын жишиг үзүүлэлтийн ард байгаа баг хиймэл оюун ухаанд суурилсан "кодлох туслах"-ыг нээсэн бөгөөд энэ нь Девинтэй харьцуулахад энэ жишиг дээр ажилладаг. Тэдний шийдэл нь SWE-агент , энэ шийдэл нь энэ жишиг үзүүлэлтийн тасалбарын 12.5%-ийг бүрэн бие даасан байдлаар зөв шийддэг (энэ нь зөвхөн LLM-д зориулсан хамгийн шилдэг загвараас 4 дахин их юм.) SWE-агентыг Принстоны 7 хүний бүрэлдэхүүнтэй баг 6 сарын дотор барьсан. Их сургууль, АНУ-д. Мөн баг нь нээлттэй эх сурвалж байхын зэрэгцээ сурсан судалгааны материалаа нийтэлдэг.

Өнөөдрийн дугаарт бид ярилцаж байна Ofir Press , Принстоны докторын дараах судалгааны ажилтан, Meta AI болон MosaicML-д зочин судлаач асан. Тэр бас SWE-агентийн хөгжүүлэгчдийн нэг юм. Энэ нийтлэлд бид дараахь зүйлийг авч үзэх болно.

Агент-компьютер-Интерфэйс . ACI (Agent-Computer Interface) үзэл баримтлал нь SWE-Agent-ийн гол барилгын материал юм. AI кодчиллын агентын аргууд нь түүхий LLM-ээс илүү сайн ажилладаг тул "AI кодчилол" шийдлүүдэд давамгайлах магадлалтай.
SWE-агент хэрхэн ажилладаг вэ? Python-оор бүтээгдсэн энэ нь өгсөн сануулгыг дагаж, файлуудыг үзэж, засварлаж, засварлаж, шийдлүүдийг илгээдэг.
Амжилттай гүйлтүүд болон бүтэлгүйтсэн гүйлтүүд. Асуудлыг шийдэхийн тулд төлөөлөгч бага "эргэлт" хийх тусам амжилтанд хүрэх магадлал өндөр байдаг. Үүний зэрэгцээ бүтэлгүйтлийн нийтлэг шалтгаанууд нь юу хийхээ мэдэхгүй гацах, буруу хэрэгжилтийг санал болгох, засах алдаатай код агуулсан файлуудыг олохгүй байх явдал юм.
Аюулгүй байдал ба ёс зүйн асуудал. Өгөгдөл алдагдах гэх мэт асуудлуудад хүргэдэг үйлдвэрлэлийн өөрчлөлтүүд нь санаа зовоосон асуудал бөгөөд муу оролцогчид агентуудад хортой код үүсгэхийг зааварладаг. Эдгээр асуудлыг мэдэх нь хиймэл оюун ухааны бүх агентуудыг аюул заналхийллээс илүү сайн хамгаалахад тусална.
Хүний хөгжүүлэгчид хиймэл оюун ухааны агентуудын эсрэг. Зарим ижил төстэй байдал, тухайлбал алдаа засах арга барил, төлөөлөгч "үгүй" гэж хэлэх чадваргүй гэх мэт олон ялгаа.
SWE-агентуудад зориулсан дараагийн алхамууд. Нарийн тааруулах агентууд, дибаг хийх чадварууд болон автоматаар үүсгэх орчны тохиргооны скриптүүд?
"v1" хиймэл оюун ухааны агентуудаас суралцах. AI агентууд хөгжүүлэгчийн багаж хэрэгслийн дараагийн халуун бүс мэт харагддаг, гэхдээ бие даасан агентууд хэзээ нэгэн цагт хөгжүүлэгчийн туслах статусаас давж гарах болно, тэр ч байтугай гялалзсан үзүүлбэрүүдтэй байсан ч гэсэн? Бид эргэлзэж байна, ядаж яг одоо.

Эхлэхээсээ өмнө Принстоны багийнханд барилгын ажилд талархал илэрхийлье SWE-салбар , аль хэдийн салбарын стандартын хиймэл оюун ухааны кодчиллын үнэлгээний үнэлгээний хэрэгсэл бөгөөд салбартаа тэргүүлэгч хиймэл оюун ухааны кодчиллын хэрэгсэл болох SWE-агентыг нээлттэй эх сурвалж болгон гаргасан. Мөн нийтэлсэнд баярлалаа a SWE-агент болон ACI интерфейс дээрх цаас. Мөн эдгээр хэрэгслийг ил задгай барьж буй бүх хүмүүст хашгирах; 2-р хэсгийн төгсгөлд хэд хэдэн зүйлийг жагсаасан болно, " SWE-агент хэрхэн ажилладаг вэ?"

1. Агент-Компьютер-Интерфэйс

SWE-агент нь GitHub-ийн асуудлыг оролт болгон авч, татах хүсэлтийг гаралт болгон буцаадаг хэрэгсэл бөгөөд энэ нь санал болгож буй шийдэл юм. SWE-агент одоогоор API дуудлагаар дамжуулан GPT-4-Turbo-г бүрээсний доор ашиглаж байна. Шийдэл нь нээлттэй эх сурвалж учраас том хэлний загварыг өөрчлөхөд хялбар байдаг ( LLM) шийдэлд өөр API, тэр ч байтугай орон нутгийн загварт ашигладаг; Sourcegraph-ийн Cody кодчиллын туслахыг өөр өөр LLM ашиглахаар хэрхэн тохируулах гэх мэт.

Агент-Компьютерийн интерфейс (ACI) Энэ нь ChatGPT гэх мэт том хэлний загваруудад (LLMs) LLM-д ээлтэй орчинд ажиллах интерфейс юм.

Тус баг нь хүн-компьютерийн харилцан үйлчлэлийн (HCI) судалгаанаас санаа авсан бөгөөд хүмүүс гар гэх мэт утга учиртай интерфейсээр дамжуулан компьютертэй "харилцдаг". Хариуд нь компьютерууд компьютерийн дэлгэц шиг хүний ойлгож чадах интерфейсээр дамжуулан "арын" холбогддог. AI агент нь компьютертэй харилцахдаа ижил төрлийн интерфейсийг ашигладаг:

ACI интерфэйсийг агент болон холбогдох компьютерт зориулсан API гэж үзэж болно. Эх сурвалж: SWE-агентийн цаас

ACI хэрхэн ажилладаг талаар семантик болон бүтцийн үүднээс авч үзье.

LLM-ийн үүднээс ACI

Агентийг жирэмслэх сайн арга бол тусгай хэрэгсэл бүхий урьдчилан тохируулсан LLM сесс юм.

Системийн мессеж : LLM сесс нь "Та бие даасан програмист бөгөөд тусгай интерфэйстэй командын мөрөнд шууд ажиллаж байна" гэсэн системийн мессежээр тохируулагдсан. Энэ нь төлөөлөгчийн зан байдал, харилцан ярианы нөхцөл байдлыг тодорхойлдог.
Байгаль орчин : Энэ бол агенттай харьцдаг зүйл юм. Энэ нь ихэвчлэн команд гэж тодорхойлсон агентаас оролт авч, гаралтыг хуваалцдаг командын мөрийн интерфейс юм.
Түүх : агент нь тушаалын түүх, тохируулах боломжтой түүхийн хэмжээг хянадаг. Агент өөрийгөө давтахгүйн тулд зарим түүхийг хадгалах нь зүйтэй.

ACI интерфейс ажиллаж байна: SWE-агент ("урьдчилан тохируулсан LLM") нь хүрээлэн буй орчинд тушаал өгч, дараа нь хүрээлэн буй орчны гаралтыг уншиж, дараагийн алхмыг сонгоно.

Системийн бүрэн мессеж нь 800 орчим үгтэй бөгөөд LLM-ийн гүйцэтгэх боломжтой бүх системийн командуудыг агуулдаг.

*SWE-агентийн системийн мессежээс ишлэл. Унш бүрэн шуурхай энд байна .*

Програм хангамжийн бүрэлдэхүүн хэсгийн үүднээс ACI

ACI нь эдгээр "програм хангамжийн барилгын блокууд"-аас бүрдэнэ.

Захиалгат командуудын багц "Засварлах", "нээлттэй" гэх мэт эдгээр командуудыг хэрхэн ашиглах тухай баримт бичгийн хамт төлөөлөгч ажиллуулж болно.
Линтер . Энэ нь команд, код, скрипт болон бусад үүсгэсэн бүх зүйлийн зөв форматыг хангахын тулд төлөөлөгчийн үүсгэсэн гаралтыг догол болгодог. Ашигласан хэл(үүд)-д зориулж доторлогоог тохируулах шаардлагатай.
Тушаалуудын талаархи санал хүсэлт. Тушаалуудын гаралтыг агент руу буцааж тайлбарлах шаардлагатай. Энэ нь командын мөрийн гаралтыг "хоолой" хийхээс илүү чухал юм. Төлөөлөгч үүнийг боловсруулахын тулд "тушаал сайн ажиллаж, гаралт байхгүй байсан" гэх мэт санал хүсэлтийг тодорхой бичих ёстой. Амжилттай гаралтын хоосон утсыг LLM-д задлан шинжлэхэд хэцүү байдаг.
Мэргэшсэн терминал. Энэ терминал нь тухайн үед агент файл доторх 100 мөр кодыг харах боломжийг олгодог. Агент файлыг дээш эсвэл доош шилжүүлэхийг зааварлаж болно. Яагаад 100 мөр гэж? Агент хэт их ачаалалтай болж, илүү их зүйл байгаа үед илүү муу үр дүнд хүргэдэг бололтой. Сонирхолтой нь, бидний дэлгэцэн дээр тухайн үед 50-100-аас дээш мөр код байхгүйг эс тооцвол хүмүүс ч бас ингэж ажилладаг!
Контекст : Аль файл нээлттэй, ажиллах лавлах гэх мэт мэдээлэл. Энэ мэдээллийг тушаал бүрийн хамт агент руу дамжуулдаг.

Програм хангамжийн бүрэлдэхүүн хэсгүүдийн үүднээс ACI

SWE вандан сандлын хувьд ACI-г тохируулах нь хангалттай хялбар байдаг:

Шуурхай загварууд: анхны заавар, даалгавар өөрөө, төлөөлөгч ямар хэрэгсэл, API-д хандаж болох тухай тайлбар
Командын файлууд : төлөөлөгчийн ашиглаж болох скрипт, функцууд.
Хяналтын урсгал: төлөөлөгчийн хариулт, түүхийг задлан шинжилдэг орчин.
Байгаль орчны хувьсагч ба анхны утгууд : терминал эсвэл командуудад нөлөөлдөг хүчин зүйлүүд бөгөөд үүнийг хугацаанаас нь өмнө тохируулах шаардлагатай.

ACI-г зааварчилгаагаар удирдан чиглүүлэх

Тушаалуудыг гүйцэтгэхийн өмнө SWE-агентийн ACI-д нэмэлт зөвлөмж өгдөг. Эдгээр нь төлөөлөгчийн өмнө нь тэмцэж байсан хувилбарууд бөгөөд үүнийг нөхөх зөвлөмжүүд юм. SWE-агентийн нэмэлт сануулгаас авсан зөвлөмжийн зарим жишээ энд байна:

Ажлаа шалгана уу: "Үргэлж асуудлын хэлэлцдэг алдааг давтахыг оролдохоос эхэл [...] Алдаа зассан гэж бодож байвал алдааг үнэхээр зассан эсэхийг шалгахын тулд алдааг хуулбарлах скриптийг дахин ажиллуулна уу."
Өөр зүйл туршиж үзээрэй: "Хэрэв та тушаал ажиллуулаад ажиллахгүй бол өөр тушаал ажиллуулж үзээрэй. Нэг удаа ажиллаагүй тушаал та үүнийг өөрчлөхгүй бол хоёр дахь удаагаа ажиллахгүй!"
Үсрэх, бүү гүйлгэ: "Хэрэв та файл нээгээд эхний 100 мөрөнд байхгүй тодорхой шугамын эргэн тойронд очих шаардлагатай бол 583-р мөр гэж хэлээрэй, зүгээр л гүйлгэх_доошлуулах командыг олон удаа бүү ашигла. Үүний оронд goto 583 командыг ашиглана уу. Энэ нь илүү хурдан юм."
Хайлт: "Хэрэв алдааг хуулбарлах скрипт нь buggy-input.png гэх мэт тодорхой файлыг оруулах/уншихыг шаарддаг бол та тэр файлыг хэрхэн оруулах, одоо байгаа репо кодонд хайлт хийх, өөр хэн нэгэн байгаа эсэхийг мэдэхийг хүсч байна. аль хэдийн үүнийг хийсэн."
Ажлын лавлах хаана байгааг мэдэж байх: "Одоогийн нээлттэй файл болон одоогийн ажиллаж байгаа лавлахыг үргэлж анхаарч үзээрэй (энэ нь одоогоор нээлттэй файлын дараа шууд гарч ирдэг). Одоогийн нээлттэй файл нь ажиллаж байгаа лавлахаас өөр лавлахад байж болно!"
Анхаар! "Файл засварлахдаа санамсаргүйгээр буруу мөрийн дугаарыг зааж өгөх, эсвэл буруу догол мөртэй код бичихэд хялбар байдаг."

Хөгжилтэй нь эдгээр заавар нь туршлагагүй хүний командын шугамын шинэ орчны талаар суралцахад зориулагдсан байж болох юм!

2. SWE-агент хэрхэн ажилладаг вэ?

SWE-агент нь ACI загварын хэрэгжилт юм. Энэ нь дараах байдлаар ажилладаг.

1. GitHub-ийн асуудлыг авч үзье, алдааны тайлан эсвэл функцийн хүсэлт гэх мэт. Тайлбарыг илүү боловсронгуй болгох тусам сайн.

2. Ажилдаа ор. Агент ажлаа эхлүүлж, асуудлыг оролт болгон ашиглаж, хүрээлэн буй орчныг ажиллуулах гарцыг бий болгож, дараа нь давтдаг.

SWE-агент нь энэ үе шатанд харилцан үйлчлэлийн чадваргүй, зориудаар бүтээгдсэн гэдгийг анхаарна уу. Гэсэн хэдий ч, хүний хөгжүүлэгч гүйцэтгэлийг түр зогсоож, илүү олон контекст эсвэл заавар нэмэх нь хангалттай хялбар болохыг та харж болно.

Ямар нэгэн байдлаар GitHub Copilot Workspaces нь илүү бүтэцтэй, интерактив ажлын урсгалыг хангадаг. Бид өмнө нь сурвалжилж байсан GH Copilot Workspace хэрхэн ажилладаг .

3. Шийдлийг ирүүлнэ үү. Эцсийн үр дүн нь:

Хөгжүүлэгчийг хянан үзэхэд бэлэн татах хүсэлт
Ажлын тайлан
Гүйлтийн замнал. Траектори нь гүйлтийн түүхийн бүрэн бүртгэлийг хэлнэ.

Шийдвэр гаргах гэж оролдох хэмжээнд хүрэхийн тулд төлөөлөгч ихэвчлэн 10 орчим "эргэлт" шаарддаг.

SWE-агент ажиллуулах нь гайхалтай хялбар юм Учир нь баг нь GitHub Codespaces ашиглан "нэг товшилтоор байршуулах" дэмжлэгийг нэмсэн. Энэ бол сайхан мэдрэгчтэй бөгөөд баг энэ үүл хөгжүүлэх орчныг (CDE) сайн ашиглаж байгааг харахад таатай байна. Бид өмнө нь сурвалжилж байсан CDE-ийн алдартай байдал , түүний дотор GitHub Codespaces .

SWE-агентыг ашиглах урьдчилсан нөхцөл бол OpenAI API түлхүүр бөгөөд ингэснээр агент ChatGPT-4-Turbo ашиглах API хүсэлт гаргах боломжтой. Энэхүү хэрэгсэл нь нээлттэй эх сурвалжтай тул өөр API-г дэмжихийн тулд эдгээр дуудлагыг өөрчлөх, тэр ч байтугай орон нутгийн LLM-тэй ярилцахад хялбар байдаг.

SWE-агент нь нээлттэй эх сурвалжтай хэдий ч өнөө үед LLM төслүүдэд түгээмэл байдаг шиг GitHub Codespace болон OpenAI API-г ашиглахад мөнгө шаардагддаг гэдгийг санаарай. Нэг туршилт явуулах зардал нь GitHub-ийн асуудал бүрт ойролцоогоор 2 доллар байдаг.

Технологи

SWE-агент нь Python хэл дээр бичигдсэн бөгөөд энэ эхний хувилбар нь үүнийг ашиглан асуудлыг шийдвэрлэхэд дэмжлэг үзүүлдэг. Баг нь практик шалтгаанаар энэ хэлийг сонгосон: агент нь SWE-салбарын жишиг дээр өндөр оноо авахаар бүтээгдсэн. Мөн SWE-салбарын ихэнх асуудал Python-д байдаг. Үүний зэрэгцээ SWE-агент нь бусад хэлтэй хангалттай сайн ажилладаг.

SWE-агентийн баг нэмэлт хэлэнд дэмжлэг нэмэх нь сайн үр дүнтэй болохыг аль хэдийн нотолсон. Тэд шалгалт өгсөн HumanEvalFix алдааны байршлыг тогтоох, хуулбарлах бус шууд дибаг хийх, кодлоход илүү анхаардаг олон хэл (Python, JS, Go, Java, C++ болон Rust) дээр олон төрлийн асуудалтай байдаг жишиг. Одоогийн тохиргоог ашиглан агент Javascript, Java болон Python асуудлууд дээр сайн ажилласан.

Шинэ хэлэнд дэмжлэг нэмж байна дараах алхмуудыг шаарддаг:

Ашиглах хэлний тусгай салст бүрхэвчийг зааж өгөх.
Тухайн хэлээр юуг анхаарах ёстойг онцлон тэмдэглэхийн тулд контекст зааврыг шинэчлэх. Жишээлбэл, хаалт нь зарим хэлэнд чухал боловч догол нь тийм биш юм.

SWE-агент хөгжүүлэгч Офир дараахь зүйлийг нэгтгэн дүгнэв.

"Бусад хэлэнд доторлогоо нэмж, бусад хэл дээр бот програмтай байх нь тийм ч их ажил биш байх болно." Агентлагийн архитектурын аль нь ч Python-д хамаарахгүй."

Агент ихэвчлэн юу хийдэг

-д SWE-агентийн цаас , судлаачид GitHub-ийн асуудлыг шийдвэрлэх гэж оролдохын зэрэгцээ энэ хэрэгсэл нь эргэлт бүрт ихэвчлэн юу хийдгийг төсөөлж байв.

*Төлөөлөгчийн ихэвчлэн эргэлт бүрт хийдэг алхамууд. Эх сурвалж: SWE-агентийн цаас*

Ихэнхдээ агент үйл явцын эхэн үед шинэ файлууд, хайлтын файлууд, лавлахуудыг үүсгэж, хоёр, гурав дахь эргэлтээс файлуудыг засварлаж, шийдлүүдийг ажиллуулж эхэлсэн. Цаг хугацаа өнгөрөхөд ихэнх гүйлтүүд 10 дахь ээлжинд шийдлийг ирүүлээгүй агентууд ихэвчлэн бууж өгөх хүртлээ файлуудыг засварлаж, ажиллуулж байв.

Төлөөлөгчийн бүх үйлдлийг харахад энэ нь ихэвчлэн нээлттэй файлуудыг засварладаг:

*Эргэлт бүрт төлөөлөгчийн үйл ажиллагааны төрлүүдийн хуваарилалт. Эх сурвалж: SWE-агентийн цаас*

Нэгдүгээр ээлжээс эхлэн зонхилох үйлдэл нь агент файлыг засварлаж, дараа нь ажиллуулах явдал юм Python өөрчлөлт хүлээгдэж буйгаар ажиллаж байгаа эсэхийг шалгах.

Доторлогоо нь SWE-агентийн ажлыг илүү сайн болгодог. Засварын 51.7% нь дор хаяж нэг алдаатай байсан бөгөөд энэ нь доторлогоонд баригдсан тул агент үүнийг засах боломжийг олгосон. Энэ тоо нь туршлага багатай инженер код бичихтэй ижил байж болох юм шиг санагддаг. Туршлагатай инженерүүд хэлний талаар сайн ойлголттой байх хандлагатай байдаг бөгөөд хэрэв тэд доторлогооны алдаа гаргахад хүргэдэг алдаа гаргавал энэ нь ихэвчлэн санаатай байдаг.

SWE-агентийн ард байгаа баг

Компаниуд энэ салбарт өрсөлдөхийн тулд хэдэн арван, хэдэн зуун сая долларын санхүүжилт цуглуулж байгаа тул 6 сарын дотор SWE-агентыг байгуулсан академи дотроос хоёрхон орон тооны гишүүнтэй жижиг багийг харах нь сонирхолтой юм.

Энэ намар Стэнфордод докторын зэрэг хамгаалах судалгааны туслах: Жон Ян
Гурван докторант (3, 4, 5 дахь жил): Карлос Э.Хименез , Александр Веттиг , мөн Shunyu Yao Хэдэн долоо хоногийн өмнө сургуулиа төгссөн - түүнд баяр хүргэе
Принстоны багш: Картик Нарасимхан (туслах профессор)
Докторын дараах судлаач: Ofir Press
Судалгааны инженер: Килиан Либерет

Жон Ян, Карлос Э.Хименез нараар ахлуулсан тус багийн бүх хүмүүс машин сургалтын судалгааны салбарт олон жилийн турш идэвхтэй ажиллаж ирсэн. Хүн бүр өөр эрдэм шинжилгээний үүрэгтэй байсан тул зөвхөн Жон, Карлос нар SWE-агент дээр бүтэн цагаар ажиллаж байсныг тэмдэглэх нь зүйтэй. Тус баг 2023 оны 10-р сард ажиллаж эхэлсэн бөгөөд анхны хувилбарыг 2024 оны 4-р сард хэвлүүлсэн.

Хагас цагийн эрдэм шинжилгээний багтай ийм хэрэгтэй хэрэгслийг бий болгох нь үнэхээр гайхалтай тул энэ амжилтад хүрсэн бүх хүмүүст баяр хүргэе.

SWE вандан сандал дээрх тэмдэглэл

Багийн гишүүдийн цөм нь 2023 оны 10-р сард SWE-bench үнэлгээний тогтолцоог гаргасны дараа баг SWE-агентыг байгуулж эхэлсэн. SWE-bench цуглуулгыг одоо хамгийн сүүлийн үеийн LLM кодчиллын үнэлгээний хүрээ болгон ашиглаж байна. Бид Офироос энэхүү үнэлгээний багцын санаа хэрхэн гарсан талаар асуув:

"Карлос [Э. Хименес], Жон [Ян] нар SWE-салбарын санааг гаргасан. Энэ нь тэд LM-ийн кодлох чадварыг үнэлэх сорилттой жишиг тогтоохыг хүссэний үр дүн байсан бөгөөд GitHub-ийн асуудал үүнд маш хэрэгтэй эх сурвалж болж болохыг анзаарсан."

SWE вандан сандал нь ихэвчлэн Python ашигладаг GitHub-ийн асуудлуудыг агуулдаг бөгөөд Django хүрээг ашиглан асуудалд өрөөсгөл ханддаг юм шиг санагддаг. Бид Офироос Python болон Django-ийн энэхүү анхаарал хэрхэн үүссэн талаар асуув:

"Бид бүх зүйлийг тохируулах, ажиллуулахад хялбар болгохын тулд Python-г сонгодог. Джангогийн маш их төлөөлөлтэй асуудлууд санаатайгаар болоогүй: Django GitHub-ийн олон асуудал бидний шүүлтүүрийн процессыг давсан."

SWE-агентийн нээлттэй эхийн хувилбарууд

Энэ нийтлэлд SWE-агентыг багтаасан боловч хиймэл оюун ухааны орон зайд бусад нээлттэй эхийн аргуудыг ашиглах боломжтой.

Эрдмийн дэмжлэгтэй алдартай төслүүд:

AutoCodeRover : Сингапурын Үндэсний Их Сургуулийн баг SWE-агентын ашигладаг биш харин хоёр агент ашиглан барьсан.
MetaGPT : олон агент дээр анхаарлаа төвлөрүүлэх. Дэмжсэн судалгаа хийх замаар Европ, АНУ, Ази даяар тархсан их дээд сургуулиудын судлаачид явуулсан.

Нээлттэй эхийн онцлох төслүүд:

OpenDevin : Девинийг нээлттэй эх сурвалж болгон хуулбарлахыг оролдож байна
GPT инженер : одоо байгаа кодыг сайжруулах зорилгоор бүтээгдсэн бөгөөд түүний гол зорилго нь алдаа засахад чиглээгүй ( SWE-агентын анхаарлын төвд байгаагаас ялгаатай)
smol хөгжүүлэгч : шат болон үндсэн барилгын блокуудад анхаарлаа хандуулах
Антерион : SWE-агент дээр үндэслэсэн
Делвин : SWE-агенттай төстэй
Девика : мөн Дэвиний загвар өмсөгч, эцэст нь Дэвиний SWE вандан оноонд хүрэх зорилготой
AutoDev : олон хэлний дэмжлэг (Java, Kotlin, JS/Typescript, Rust, Python болон бусад)

3. Амжилттай гүйлтүүд болон бүтэлгүйтсэн гүйлтүүд

Дэлгэрэнгүй унших