Opinion Mining & Big Data

Programe academice

Opinion Mining & Big Data este un program realizat de Teamnet în parteneriat cu Facultatea de Automatică şi Calculatoare, Universitatea „Politehnică” din Bucureşti.

Pentru studenții care și-au dorit să poată detecta cu precizie toate opiniile exprimate în texte și discuții, am lansat un program de cercetare academică care să perfecţioneze şi să dezvolte la scară largă intrumentele folosite în prezent.

Ne-am propus să abordăm și alte teme legate de analiza volumelor mari de date și texte generate în zilele noastre, aplicând tehnici precum învățarea automată, regăsirea informației, analiza rețelelor sociale și modelarea predictivă.

Opinion Mining & Big Data este un program adresat studenţilor şi masteranzilor de la Facultatea de Automatică şi Calculatoare, Facultatea de Matematică și Informatică și nu numai. Rezultalele obţinute în urma cercetării sunt folosite în redactarea lucrărilor lor de diplomă.

În acest moment, avem trei direcții principale de dezvoltare de aplicații:

  • Monitorizare media automată: detecția entităților numite, a opiniilor și citatelor pentru texte în limba română;
  • Analiza datelor publice pentru proiecte specifice:
    • Construirea grafului oamenilor de afaceri din România;
    • Analiza licitațiilor publice din România;
  • Construirea agenților conversaționali care să modeleze o personalitate istorică, științifică sau literară.

Ca stagiar în cadrul proiectului Opinion Mining & Big Data, vei reuși să te dezvolți profesional pe diferite direcții:

  • Vei studia algoritmi și tehnici specifice domeniului stagiului;
  • Vei lucra la dezvoltarea unei aplicații software care să implementeze algoritmii propuși pentru rezolvarea problemei;
  • Vei lucra la testarea și validarea rezultatelor aplicației dezvoltate;
  • Vei lucra la integrarea și îmbunătățirea unei platforme existente pentru colectarea datelor și descoperirea opiniilor în texte online scrise în limba română (care folosește tehnologii open-source precum Apache Solr, Apache Nutch, Weka, Mallet, etc.);
  • Stimularea gândirii critice, lucrând la dezvoltarea ideilor proprii prin îmbunătățirea sau combinarea mai multor metode de rezolvare existente.

În cadrul temelor de cercetare propuse, se utilizează o gamă largă de tehnologii specifice următoarelor domenii:

  • Natural Language Processing: lematizare, POS tagging, scoruri afective, arbori de dependențe, modele de n-grame, etc.;
  • Information Retrieval: Apache Nutch & Lucene & Solr;
  • Machine Learning: Weka, Mallet, clustering (STC, Lingo);
  • Baze de date NoSQL: MongoDB, Neo4j.

În plus, pe toată perioada stagiului, vei beneficia de o sponsorizare din partea noastră.

Dacă vrei să aplici pentru un loc în acest program, trebuie să ai:

  • Cunoștințe bune de Java (C și Python reprezintă un bonus);
  • Cunoștințe bune de structuri de date și algoritmi;
  • Dorința de documentare științifică într-un domeniu nou și de studiu a programelor open-source existente în domeniu;

Ai un plus pentru:

  • Cunoașterea noțiunilor de bază de text mining, information retrieval sau machine learning;
  • Implicarea în proiecte open-source sau în alte proiecte software desfășurate într-o echipă (de exemplu, la facultate).

Pentru a putea intra în program, trebuie parcurse următoarele etape:

  • Trimiterea unei aplicaţii;
  • Susținerea unui interviu în fața echipei noastre de HR;
  • Susținerea unui test de logică şi a unui test tehnic;
  • Susținerea unui interviu cu un specialist din domeniul vizat;
  • Integrarea în cadrul echipei.

Sesiunea 2013-2014
• 7 studenți au participat la internship-urile de vară;
• 6 stagiari au lucrat și la lucrarea de licență în cadrul companiei;
• 4 studenți au continuat colaborarea ca angajați full-time.

Sesiunea 2012 – 2013
• 8 studenți au participat la internship-urile de vară;
• 7 stagiari au realizat și lucrarea de licență în cadrul companiei;
• 4 studenți au rămas angajați full-time, după finalizarea studiilor.