Publicația industriei TECH regionale

RECOGNOS – firma care îţi găseşte acul în carul cu fân

RECOGNOS – firmă inființată în 1999 în California de clujeanul George Roth. Își deschide filială in Cluj în 2000. Acum are la Cluj 80 de angajați, alte prezențe in San Francisco, Houston si New-York, cu o cifra de afaceri anul trecut de aproximativ 4 milioane de dolari. Se definește ca ”a smart data company specialized in developing applications for the investment industry and solutions for extracting and processing unstructured data”.
Andrei Roth are 34 de ani, absolvent al liceului de informatică din Cluj, cu studii în SUA la Berkeley University – Business School. A lucrat doi ani la Microsoft pe zona de finance în birourile din Sillicon Valley, ”eu susţineam zona de business development şi sales, lucrînd mult cu Asia-Pacific şi America Latină cu oamenii lor de sales pentru platforma lor de IPTV şi telecom, vedeam modelul de business, servicii, oferta de produse, cum lucrează”.
În 2008 s-a întors în România, ca partener într-un startup de telecom (consolidau rețele de cartier ce furnizau semnal de internet), au făcut exit către Romtelecom – fost firmă se numește azi NextGen, iar platforma au vândut-o separat – numele actual este Seenow. A mai lucrat o vreme pentru diferite firme în consultanță financiară iar in 2013 a preluat RECOGNOS.
O firmă care începe să se transforme
”Am oroare de nepotisme”, spune Andi, ”de aceea am evitat tot timpul sa lucrez pentru RECOGNOS, deși eram amândoi în Cluj, și eu și firma”. George Roth, tatăl lui Andi, care locuiește de peste 25 de ani în America, este cel care a deschis în 2000 această firmă de IT în Cluj, care de atunci a tot crescut. În 2013, partenerul român s-a retras și a apărut nevoia de leadership local. ”Mi-am dat seama – spune Andi – ”că chiar dacă RECOGNOS nu ar fi avut legătură cu tatăl meu, tot o era o oportunitate foarte interesantă, era o mare provocare”.

 
Şi atunci şi acum, viziunea firmei RECOGNOS are 3 părţi clare:

  • partea de servicii, lucrează cu fonduri de investiţii mari din SUA;
  • o parte de date, un joint-venture în New York numit RECOGNOS FINANCIAL, având parteneri câțiva executives de pe Wall Street, și al cărei scop este să colaboreze cu industria de date financiare;
  • o parte de incubator, mare parte din câștigurile firmei se investesc tot în industrie – e viziunea lui Roth senior, absolvent în prima generație de liceu de informatică din Cluj, un om extrem de pasionat de tehnologie.

”Cînd faci servicii, vinzi pînă la urmă timpul oamenilor. În vânzarea de produs, nu mai este aşa – costul iniţial e al tău, cu cît întîrzii livrarea, cu atât cresc costurile. Prin urmare, provocarea mare a fost sa modific mindset-ul firmei RECOGNOS – dintr-un mindset de servicii într-un mindset de produs şi de creştere. Firma era specializată şi în produse şi în servicii, dar mindesetul era mai spre servicii”. Tot timpul s-a făcut cercetare şi inovaţie în firma dar nu are un mindset de market. ”Asta e o provocare continuă pentru noi”, consideră Andi.
Un teren de vânatoare vast si aproape liber
Prima implementare a RECOGNOS smart data platform a avut loc în 2002. Această platformă are ca scop unificarea datelor structurate și nestructurate în informații ”ready for analytics”, businessul major al RECOGNOS fiind în zona de Data Preparation.
”Când am preluat, acum patru ani, – își amintește Andi – eram o companie medie-micuţă, cu vreo 60 de oameni, dar cu vreo 8 linii de business. Iar una dintre reguli spune să te focusezi – așa că în cîţiva ani am cam închis toate celelalte linii care erau în plus şi am rămas cu două linii mari de business: cu serviciile şi cu această platformă”.
Data are the new commodities, este noul aur, valori majore după care aleargă cei mai mari jucători din lumea tehnologiei. Dar majoritatea acestor date, generate zilnic în cantități uriașe, au o imensă problemă – sunt nestructurate, sunt haotice, sunt integrate în documente fără semnificații, și astfel nu pot genera analytics.
Această zonă complexă, a datelor nestructurate sau semi-structurate, cu un ordin de dificultate foarte mare, este terenul de vînătoare al RECOGNOS.
”Noi am început să studiem problema de prin 2008, între timp au apărut tehnologii care te pot ajută să legi aceste informaţii, să înţelegi că dintr-un text liber să poţi să extragi subiectul şi predicatul şi cum se leagă între ele, să înţelegi care este verbul”.
Trei ani de zile a ţinut RECOGNOS o echipă de cercetare pe domeniu, fără să aiba venituri de la clienţi plătitori, dar acea perioadă i-a răsplătit – au acumulat expertiză şi experienţă.
În 2011, au pus la punct un joint-venture în SUA – Recognos Financial – având ca partneri executives de pe Wall Street şi au găsit și primul use case, datele fondurilor mutuale din SUA.
”Date nestructurate pot fi documente, şi o pagină de web se înscrie la date nestructurate, date nestructurate este şi o imagine scanată, sau un document word. Noi urmărim să scoatem din acel document word ceva important pentru altcineva. Clienţii ne spun: “asta este sursă noastră de informaţii şi mă interesează să scot lucrurile astea”. Definim o taxonomie împreună, un model de date, cu câmpurile pe care şi le doresc ei, şi rezolvăm problema folosind o suită de instrumente (tools) dedicate”, ne informează Andi.
Noi am rezolvat problema într-o zi, lor le lua o săptămână
O lecţie ce i-a costat câteva milioane de dolari cheltuite i-a învățat că nu poţi să îţi faci un sistem, un soft, care să îţi rezolve problema datelor nestructurate, problemele sînt atît de complexe și diverse încât nici un soft nu le poate rezolva.
Concluzia a fost că au nevoie de un sistem spart în componente, de o ”cutie de scule”. ”Asta e ceea ce avem noi de fapt, adaugă Andi, şi în funcţie de fiecare use case, alegem instrumentele potrivite”.
US Mutual Fund Data avea documentele prezentate public, pe site-uri: pdf-uri, documente de la avocaţi, mii de pagini. Fiecare emiţător de active era obligat ca o dată pe an să publice un prospect de emisiune şi eventual să adauge acte adiţionale dacă ceva se modifica în cursul acelei perioade.
”Noi luam toate documentele astea (şi aici avem o taxonomie , modelul de date, de 154 de câmpuri, de la ce emiţător este, structura, comisioane etc). Trebuia să umplem aceste câmpuri pentru toate fondurile mutuale din Statele Unite. De la modelul lor, care le lua o săptămână să rezolve problema, manual, cu vreo 300 de oameni, iar informaţiile rezultate la final erau de slabă calitate, noi am creat un model care le-a livrat acest serviciu într-o zi, cu 15 inşi, şi folosind tehnologia noastră. Un lucru interesant la modelul nostru folosit atunci a fost că păstrează originea informaţiei, de unde anume a luat-o, care e sursa. Acest lucru te ajută foarte mult, oricînd poţi merge la sursă, pentru verificări sau informații suplimentare.”
Un client mondial îi forțează să treacă la un alt nivel
Următorul client a fost la scară mondială, un joint-venture în care erau Goldman Sachs, Bank of New-York, JP Morgan, Credit Suisse şi clientul de pe fondurile mutuale din SUA, care își doreau o bază globală de KYC, “know your customer”.
Iniţitive de acest fel există în toată lumea, procesele de extragere de date sînt necesare pentru a lega informaţiile despre client din mai multe surse – ”noi am luat numai o părticică de extragere de informaţii dar am venit la acel moment cu o inovaţie reală”, îmi spune Andi, zâmbind ca și cum e gata să-mi dezvăluie o surpiză.
”Provocarea majoră era dată de faptul că documentele erau de mai multe feluri şi în mai multe limbi. Am avut un geniu în soft care a inventat o metodă prin care nu mai trebuie să folosim tehnologiile semnatice pentru extragere, tehnologii care să traducă acele limbi sau să lucreze cu înţelesul lor semantic, ci să lăsăm utilizatorii de platformă să antreneze sistemul, o tehnologie de machine learning”.
Practic, sistemul învaţă de la un utilizator uman care se pur și simplu se uită într-un document şi subliniază un anumit termen, o informație care trebuia să umple un anumit câmp din modelul de date stabilit.
Când sistemul nu are nevoie să cunoască limbi străine
Procesul se numește Human in the loop Machine Learning (RPSL) , e un sistem care învaţă de la om, iar platforma dezvoltată de RECOGNOS a fost denumită ETI (Extract-Transform-Integrate) și pentru a extrude date nestructurate sau semi-structurate folosește pe lângă metoda de mai sus și Semantic Technologies, Natural Language Processing, Regular Expressions etc.
Andi oferă și un exemplu: ”avem o poliţă RCA în limba poloneză şi sistemul nu ştie ce să facă, nici nu cunoaşte limba, iar noi avem de umplut câmpurile modelului – cîte e rată lunară, valoarea poliţei, etc. Omul va introduce datele, polonezul care ştie limba, în câmpurile potrivite, extrase manual.
Sistemul mapează automat, pe măsură ce se procesează mai multe documente, sistemul învaţă şi apoi le găseşte singur, începe să înţeleagă unde să le caute și să le extragă. Aşa că noi în loc să folosim un sistem de traducere a limbii poloneze în engleză, ca sistemul să îl priceapă, punem sistemul să recunoască pattern-urile fără să cunoască limba documentului.
Am făcut şi pentru limba mandarină şi a mers. Dar a trebuit să folosim un OCR (Optical Character Recognision). Firma cu care am lucrat noi, firma de date, a fost cumpărată în cele din urmă de Reuters, pentru că Reuters își propune să devină furnizor de servicii de baze de date globale”.
Cum extragi date dintr-un document pdf?
Un alt proiect, o altă provocare pentru RECOGNOS. Anul trecut, un nou contract pentru extragere de informaţii din documente financiare – mai clar, din documentele fondurilor de pensii private din SUA.
Documente publice – ce cuprind lista de active în care investesc fondurile de pensii private ale angajaţilor, publicate pe site-ul Departamentului Muncii. Cu valoarea la zi, cu mişcări pe unitatea de fond etc. Documentele conțineau tabele enorme, dar aveau o problemă majoră: erau format pdf.
”Ei aveau nevoie de această bază de date cu activele așezate într-o formă structurată. Cînd vorbeşti de tabele în format pdf, e o altă provocare – cum stabileşti care e un tabel într-un pdf, într-o imagine? E o problema enormă! De unde începe şi unde se termină? Numărul de coloane nu e constant, nu poţi genera pattern-uri etc”.
RECOGNOS a fost forțată atunci să facă un pas uriaș în față, a trecut la un alt nivel – la reţele neuronale. Un parteneriat cu un institut privat de cercetare a dus la realizarea unui transfer tehnologic – reţele neuronale pe care RECOGNOS să le antreneze pentru tabele.
”Acum avem un public tool, TABSTRACT – ne spune Andi – în care poţi să uploadezi tu un pdf şi el îţi scoate tabelul în excel sau în ce vrei. Așa am intrat în zona de deep learning. Folosim aceeaşi tehnologie şi la identificare de ştampile într-un document pdf, de exemplu”.
E un instrument tehnologic la liber, deşi i-a costat mulţi bani, pentru a avea feed-back de la utilizatori. O metodă simplă de marketing, care le aduce totuși şi clienţi – companii cu zeci de mii de documente, care testează produsul pus la liber, le place și vor acces.
”Expertiza noastră se mărește continuu”
”Pe viitor, dorim să dezvoltăm tot mai mult platforma noastră, pentru fiecare use-case sau client să folosim un anumit tip de extractor. Urmărim deci să mărim numărul acestor tool-uri, pe scurt – să mărim geantă de scule”. ”Am fost dependenţi de cei din SUA şi de pieţele financiare de acolo, dar acum începem să diversificăm genul de industrii cu care lucrăm. Acum am făcut un use-case cu un ONG pe impact de granturi. Am luat zeci de mii de documente de granturi, scrise de avocaţi, scrise de oameni, ca să extragem informaţii despre beneficiari, pentru o hartă a distribuţiei granturilor. Expertiza noastră se mărește continuu”. ”Încercăm acum să structurăm orice tip de date, din cît mai multe domenii posibil”, definește pe scurt Andi Roth viitorul RECOGNOS.
DESPRE PIATA IT DIN ROMANIA
Piaţă IT-ului românesc este o piaţă încinsă, o piaţă care se redefineşte pentru că trece de la un model de outsourcing în care România era o destinaţie ieftină la un model în care România devine o destinaţie de valoare, se întâmplă consolidari, companiile mici încep să fie preluate de companiile mai mari, cu implicări locale sau internaţional.
DESPRE INOVATIE
Ca inovaţia să se întâmple, e nevoie de mai mult decît o piaţă de IT puternică. Nu ştiu, înafara de Estonia, vreo ţară mare inovatoare care să fi reuşit fără sprijin guvernamental, ceea ce la noi nu există. Inovaţia se întâmplă în cercetare, nu se întâmplă în companii.
Întrebarea este cum poate fi realizat transferul de tehnologie – cum faci tu traducerea între cercetare şi business. Şi la noi sunt aici cîteva cărămizi care lipsesc total – cum ar fi companiile de transfer tehnologic ale universităţilor, sau o singură entitate la nivel guvernamental care să coordoneze tot ce înseamnă inovaţie în România. Acum sînt 10 entităţi! În Israel ai un oficiu care coordonează sute de programe de inovaţie şi antreprenoriat. În România ai UIFSCDI, ANCS, OTIMMC, ADR, Ministerul Economiei, Ministerul Cercetării, Ministerul Finanţelor , o sumedenie, fără nici o coordonare sau viziune unitară sau o viziune pe termen lung. Israel a avut programe pe termen lung, a devenit o ţară inovatoare cu programe începute în anii 70.
DESPRE FINANTARE
Programele de finanţare se îndreaptă spre firmele private că să inoveze, ceea ce e greşit – tu vei da bani unei firme private că să inoveze ceea ce ea oricum va dori să inoveze. Banii ar trebui să meargă în cercetare, către idei care nu sînt market ready, pe care nimeni nu vrea să le finanţeze deocamdată. În Israel, statul finanţează foarte mult, iar pentru fiecare dolar de pe piaţă de finanţară pe care îl strîngi că privat, îţi mai da încă 6 dolari. Apoi au un efect de pâlnie, reduc finatarile pe măsură ce înaintezi cu produsul. Şi au observat că, la final, cînd produsul a ieşit pe piaţă, trendul finanţării s-a inversat: pentru fiecare dolar pe care ţi l-a dat statul, s-au strîns alţi 6 dolari din privat.
DESPRE CERCETARE
În SUA, cercetarea inovativă are loc în principal în universităţi. Acestea păstrează cei mai buni oameni, care sînt plătiţi prin granturi masive, că sînt granturi publice de la NSF, Defence, Livermoore etc, sau centre de cercetare universitare care au sprijin de la firme private care au contracte de cercetare (vezi Microsoft Research care are parteneriate imense), sau lucrează în parteneriate cu Centre de cercetare private. De ce rămîn oamenii buni acolo, în universităţi? Pentru că de acolo ies startupurile foarte puternice – din Stanford, Berkeley, MIT, Harvard. Universităţile reţin, prin companii de transfer tehnologic, reţin Proprietate Intelectuală. Acestea generează sume imense de bani, royalties. Acesta e cercul virtuos al cercetării.
DESPRE CERCETAREA IN ROMANIA
O mare parte din ce înseamnă “autonomus driving” la Wolkswagen şi Audi s-a generat la Cluj, la Universitatea Tehnică. BOSCH a făcut cercetare la Cluj pentru motivul asta, apoi au luat această tehnologie şi au marketat-o. Ei au plătit această tehnlogiei prin salarii, granturi, dar Universitatea nu a reţinut nici un Proprietate Intelectuală din asta. Îţi ţii cercetătorii acuma, cu aceste granturi, dar nu te alegi cu nimic pe termen lung.
Anul trecut s-a făcut în România un Comitet Naţional de Inovare, cu oameni foarte buni, din toată lumea, care erau voluntari, pe ideea de a coordona inovarea. S-a schimbat Guvernul, s-a desfiinţat, nu i-a sunat nimeni nici măcar să le mulţumească. Nu avem continuitate şi memorie instituţională.

Distribuie și tu:

RECOMANDATE

Articole similare

7 ani de #FabLab în Iași

Asociatia Fab Lab Iași sărbătorește 7 ani de la deschiderea primului său spațiu de coworking, timp în care a devenit un catalizator al inovației tehnologice,