Publicația industriei TECH regionale

Taxa pe diacritice

Alin Popescu - pinmagazine

Autor: Alin Popescu, CEO avocatnet.ro 

Ideea de token va redefini, destul de repede, piața muncii, economia globală și modul în care companiile cumpără și construiesc servicii. Sunt sigur de asta și m-am gândit să las mai jos, în câteva cuvinte, explicația motivului pentru care am ajuns să gândesc așa.


Un token e cea mai mică bucată în care un model de inteligență artificială (AI, pe scurt) segmentează o intrare de date (text, imagini, audio, cod, secvențe genetice) pentru a o procesa. Cumva, similar cu modul în care noi vedem o melodie ca un tot de sunete și atmosferă, iar muzicienii o văd ca pe un șir de note muzicale, dacă e să simplificăm foarte mult.

Când e vorba despre text, modelele AI folosesc, de obicei, tokenizere (aplicații care împart cuvintele în tokens) care sunt antrenate preponderent pe text în engleză. 

Context

De asta, cuvintele din engleză se sparg, de regulă, în 1, 2, 3, poate 4 tokens, în timp ce diacriticele noastre nu sunt la fel de frecvente în datele de antrenament, deci tokenizer-ul le tratează, adesea, altfel. „Înțelegere” e mai scump, în tokens, decât „intelegere” (fără diacritice).

De asta, un text de 100 de cuvinte în română consumă, în medie, cam 30% (unii spun că ar fi chiar spre 50%) mai mulți tokens decât același text în engleză. Plătești mai mult pe API (accesul în flux la capacitățile AI), ai mai puțin spațiu în context window (conversația cu un chatbot care, de regulă, e sute de mii, maxim 1 mil tokens) etc.

Intrări și ieșiri

Token-urile sunt, deci, un echivalent al atomilor din lumea noastră reală. Modelul gândește în tokens. Textul e oferit lumii, token după token.

În acest context ar trebui înțeles un alt concept util, acela de ”inference” (folosesc termenii în engleză pentru că așa îi întâlnim mai des). ”Inference” e momentul în care modelul chiar lucrează, adică primește tokens, îi procesează token cu token și generează răspunsul (tot token după token) consumând putere de calcul (și bani) pentru fiecare token produs.

Inference-ul devine, deci, în zilele noastre, un cost real și vizibil. Atât de real încât unele companii de tehnologie încep, deja, să adauge costurile de inference ca a patra componentă a bugetului alocat angajaților, alături de salariu, bonus și acțiuni.

Lucrezi cu AI-ul? Folosești tokens în munca ta? Atunci munca ta generează un cost de inference pe care compania ar trebui să îl reflecte în buget. Jocul se mută, deci, în zona discuției legate de cât de productiv ești per dolar de inference consumat. Sau, și mai interesant, dacă o companie îți oferă x spațiu de inference, de ce nu l-ai folosit integral?

În oglindă, unii oameni își întreabă angajatorii ce buget de inference au, ca să știe ce pot face, cu adevărat, în acel job, folosind tool-uri precum Claude Code, OpenAI Codex, Cursor etc. Și aleg angajatorii și în funcție de perspectivele pe care le oferă contextul tehnologic în care vor lucra.

Valoare și valori

Și aici vine partea incomodă, cea la care mă tot întorc în ultimele luni. Dacă bugetul de inference devine parte din contextul salarial, atunci valoarea ta profesională începe să se măsoare și prin cât de scump e de rulat ansamblul tău de cunoștințe. Vom discuta, deci, în viitor, nu mă îndoiesc de asta, despre cine consumă mai mulți tokens cu sens, cine produce mai mult per dolar de inference. Și vom lega aceste rezultate de avansări, concedieri și așa mai departe. 

În fond, e o logică pe care companiile o aplică deja, de multă vreme, la orice alt cost variabil.

Doar că noi, cei care lucrăm utilizând limba română, pornim cu un handicap pe care încă nu l-am numit. Aceleași idei, aceeași muncă, aceiași clienți, dar cu 30-50% mai mulți tokens consumați pentru fiecare propoziție scrisă cu diacritice. Un fel de taxă lingvistică invizibilă despre care nu discutăm și pe care, poate, va trebui să o plătim o vreme, până când modelele AI nu vor mai considera diacriticele ceva ciudat.

Peste câțiva ani, fie că vrem fie că nu, s-ar putea să nu mai întrebăm viitorul angajator despre salariu, bonus și acțiuni. Să întrebăm, în schimb, ce buget lunar de tokens vine cu jobul. Și să ne dăm seama, abia atunci, că limba în care gândim a devenit, pe tăcute, o linie din fișa de cost asociată job-ului.

Distribuie și tu:

RECOMANDATE

Articole similare

7 ani de #FabLab în Iași

Asociatia Fab Lab Iași sărbătorește 7 ani de la deschiderea primului său spațiu de coworking, timp în care a devenit un catalizator al inovației tehnologice,

BEST-Iași-pinmagazine.ro

BEST Intercultural Conference

Într-o lume în care colaborarea internațională redefinește educația, Iașiul devine pentru o zi centrul dialogului intercultural. Pe 12 iulie 2026, la Iași, va avea loc