
Otabek’s I/O
Elon aka bergan ish taklifiga rad javobim qattiq ta’sir qilibdi, tweet yozibdi.
O’zi yozsa o’ylab ko’raman )
Alright, hey
@grok
cancel all meetings. I am building startup. Founder mode is on.
"Nima pozitsiya?" savoliga javob: Bilmayman, menga "Member of Technical Staff @
x.ai
" deyishdi.
Sizga hech kim aytmagan sirni aytaman
Gigant kompaniyalarda sizga birinchi o’t yoqib, keyin o’chirishga ruxsat bor. Ammo hamma ishga kirganlar buni qilib bo’lmaydi deb, qandaydir yozilmagan qoidalarga amal qilishga harakat qilishadi )
LLM vs RLM
LLM
qurish biz o‘ylaganchalik qiyin ish emas ekan. Uni mashq qildirish, unga sifatli ma’lumotlar topish, deploy qilish, monitoring qilish va h.k.z.lar qilish qiyin. Yaqinda
Attention mexanizmi haqida yozgandim
. Aynan o‘sha mexanizm kontekstni (context) boshqaradi. Kontekstni tushunish uchun u doim ortga qarab yuradi. Ya’ni model chapdan-o‘ngga qarab shunchaki o‘qib ketmaydi, balki ushbu gapdagi qaysi so‘z menga bu so‘zni yaxshiroq tushunishimga yordam beradi degan savol bilan yurish qiladi va so'zlar bilan aloqa xaritasi yasaydi, uni GPU'dagi VRAM (Video RAM)da
KV Cache
ga saqlaydi .
Nima uchun modellarda 128k - 256k ba’zan 1M context limit bor? Sababi oddiy matematika,
Quadratic Complexity
. Huddi tepada aytganimdek, agar ba’zimda 5 ta odam bo‘lsa, ular bir-birlari bilan oson gaplasha olishadi. Agar 100 ta odam bo‘lsa 100 000 ta kombinatsiya, 1 000 000 odam bo‘lsa ehheeeee. Undan tashqari VRAM buncha katta ma’lumotlar saqlashi qiyinlashib boradi.
LLM lar uchun har bir token (so‘z) boshqa token’larga qarashi kerak context da qolishi uchun. Matn hajmi ikki baravar oshsa, hisoblash (computational work) ishi ikki baravar emas, to‘rt baravar oshadi, insane.
Bu muammoni yechish uchun kodlarni indekslash kabi yechimlar chiqgan. Ammo ularni biznesi uzoqqa bormaydi deb o‘ylayman. Shaxsan o‘zim ishda
RLM
ya’ni
Recursive Language Model
qurish jarayonida qatnashib ko‘rdim. Large Language Modellardan farqi shundaki, u rekursiv o‘zini-o‘zi chaqira oladi, ammo nega? Context muammosini yechish uchun.
Decomposer
mexanizmi ya'ni LLM ortidagi "Divide-and-conquer" algoritmi.
LLM:
• katta prompt bersangiz, prompt o‘rtasiga yetganda boshini unutib qo‘yishi mumkin
• prompt dagi barcha narsaga diqqat (attention) qilmoqchi bo‘ladi
• Internal weight ga asoslanib ishlaydi (trainingdagi ma’lumotlar bilan)
RLM:
• Faqat kichik va kerakli parchaga (snippet) diqqat qiladi. Keyingi bo‘lakga o‘tish uchun recursion ishlatadi.
• Controller mexanizmi orqali katta topshiriqni kichik bo‘laklarga bo‘lib kerak paytda o‘zini-o‘zi chaqira oladi kerakli parcha bilan.
• 1M matn uchun "filter" yozib kerakli qismini o‘qiy oladi.
RLM bilan 10M context gacha bemalol chiqsa bo‘lar ekan. To‘liq test qilib production da yuritib ko‘rilmagan, ammo eksperiment sifatida qilingan ishni bo‘lishdim. Bu kompaniya siri emas, ochiq manba. Sirli tomonlar hozircha "miyada"
😅
#experience
Dropbox Dash
jamoasi bilan 4 oy ishladim (Tour of Duty). Va RAG haqida va uni katta masshtabda yuritish (running at scale) haqida juda ko'p o'rgandim.
Agar RAG qurayotgan bo'lsangiz va write/read amallari soni juda ko'p bo'lsa siz qurayotgan RAG katta ehtimollik bilan kengaya olmaydi va juda ko'p alaqsiraydi (hallucination). Vector database kichik bo'lsa
kNN
qidiruvi ishlashi mumkin. Agar ma'lumot bo'laklar hajmi 80k-100k dan oshsa juda katta kechikish (latency) sodir bo'ladi. Sababi so'rov (query) va har bir vector o'rtasidagi masofani xisoblash qimmatlashib va og'irlashib ketadi.
Buni qanday yechish mumkin? kNN o'rniga
ANN
algoritmlaridan foydalanish kerak, misol uchun
HNSW
(Hierarchical navigable small world) indekslari. Eng katta trade off, 100% to'g'ri ma'lumot emas, balkim 99.5% - 99.9% foiz aniqlikda ma'lumotlarni topa olasiz. Xisoblash (Computing) hali ham qimmat xisoblanadi garchi ba'zilar buni hozir amal qilmaydigan ta'rif deyishsada. Agar ana katta kompaniyalar aytishayabdi desangiz, Cloud narxi nega tushmayabdi? Xullas tushundingiz menimcha.
PDF kabi xujjatlarni qanday qilib saqlaydi va ulardan qanday ma'lumot qidiradi deysizmi? Bu yerda ham shunday trade off qilinadi. Vector Quantization ya'ni rasmlarni sifatini tushurish degani, compression. High-precision floating point raqamlar saqlashdan ko'ra, ularni round qilib saqlaysiz simple cluster'larga.
Ba'zan alaqsirashga (hallucination) sabab "The Context Window Paradox" bo'ladi va uni "Lost in the Middle" muammosi deb ataymiz. Ya'ni "promptda ko'proq ma'lumot bersang, yaxshiroq natija olasan" degan gaplar noto'g'ri. Buni ko'pincha Attention modellar qanday ishlashini bilmaydiganlar aytadi. Chunki bu model diqqatini (attention) buzadi. Ya'ni prompt o'rtasiga borib model ma'lumotni yo'qotadi. Buning uchun "Re-ranking layer" yechimlari mavjud. Xullas LLMga berishdan oldin, vector db dan olingan ma'lumot bo'laklarni (chunk) cross-encoder'ga berasiz va re-rank qilingan top 3-5 tasini yuborasiz LLMga.
Bizda ham RAG qurayotganlar ko'payabdi, balkim foydasi tegar : )
50ta tizim dizayn intervyularidan o'rganganlarim shu bo'ldi
Tizim dizayni intervyularidan o'rganganlarim, xatolarim va ularni yaxshilash haqida yozdim. Big Tech'ni crack qilishni istaganlar uchun maxsus.
Batafsil
🎉
Flow 2.3.0 Dasturchi injenermisiz? Flow endi sizga yanada yaxshiroq yordamchi bo'la oladi. Big Tech Interview ga tayyorlanishingizda zerikarli leetcode masalalari yechish o'rniga, endi Flow bilan "Mock Interview" qila olasiz. U kodingizni o'qiy oladi…
🎉
Flow 2.3.0
Dasturchi injenermisiz? Flow endi sizga yanada yaxshiroq yordamchi bo'la oladi.
Big Tech Interview ga tayyorlanishingizda zerikarli leetcode masalalari yechish o'rniga, endi Flow bilan "Mock Interview" qila olasiz. U kodingizni o'qiy oladi, savollarni sekin-asta qiyinlashtiradi (xuddi real intervyudagidek).
Eng asosiysi, doim o'rgatib boradi, siz masala yechishni emas, pattern'larni ko'rishni o'rganasiz. Qiziq qismi, intervyu oxirida u sizga men yozgan qo'llanma bo'yicha algoritmlarni yaxshiroq o'rgatishni taklif qiladi. Tajribam davomida yig'gan ko'nikmalarim asosida yozilgan qo'llanmalardan biri bo'yicha sizga dars o'tadi.
2.4.0 versiyada u siz bilan ovoz yordamida gaplasha oladi, ajoyiba )
Hozircha Flow 2.2.0 versiyasi tekshiruvdan o'tmoqda (13 fevral kuni chiqib qoladi). U orqali siz endi har bir focus sessiyangizni savol javob qilib topshirasiz. To-do emas, validatsiya davri kelmoqda. Mana bu
Video
ni ko'ring
🤯
flow.otabek.io
"Flow 2.0" chiqdi
🎉
browserni bir o'chirib yoqsangiz update bo'ladi.
"Flow 2.1" da sizni nimalar kutib turganini tasavvur ham qila olmaysiz. Endi shunchaki "task"larni "done" qila olmaysiz. Flow sizga har bir "taskni qildim" deganingizda 2-5 tagacha savol berib sizga baho qo'yadi. Sinovdan o'ta olmasangiz "Bor qilib kel" deydi.
Flow siz uchun, millat uchun, "chala" mentalitetini o'ldirish uchun qilinmoqda.
Flow'ni tarqalishida yordam qiling. Chrome webstore'da yaxshi izoh yozish ham, donat qilish ham, uni boshqalarga ishlatishni tavsiya qilish ham juda katta yordam bo'ladi.
Flo AI imkoniyatini hamma uchun bepul qilishni juda istayman. Ammo buning uchun yaxshi mablag' kerak. Ammo yaxshi yangilik bor, biz buni birgalikda qila olamiz. Keyingi release larda siz token ulash bilan emas, shunchaki donat qilish bilan barchaga Flo AI ni ishlatish imkonini berishingiz mumkin:
https://tirikchilik.uz/otabekswe