ALGORITMI STROJNOG UČENJA ZA OTKRIVANJE ZNANJA U SLOŽENIM STRUKTURAMA PODATAKA
->english
Projekt financira
Hrvatska zaklada za znanost
broj: 9623
početak: 16. kolovoza 2014.
završio: 15. kolovoza 2017.
Sažetak projekta
Indukcija je proces otkrivanja znanja iz skupova podaka.
U našem radu koncentirati ćemo se na indukciju koja omogućuje otkrivanje znanja u formi razumljivoj čovjeku.
To uključuje tehnike konstrukcije modela, segmentacije skupa primjera i detekcije izuzetaka.
Metodologija je važan dio područja računarstva koji se bavi analizom podataka i otkrivanjem znanja.
U Institutu "Ruđer Bošković" razvijamo postupke strojnog učenja već dugi niz godina i
uspješno ih primjenjujemo u raznim područjima uključujući kemiju, biologiju, medicinu,
društvene znanosti, ekonomiju, i proizvodnju.
Unutar ovog projekta namjera nam je proširiti postojeću metodologiju i razviti nove postupke koji mogu
otkrivati znanje iz podataka u složenim strukturama.
Glavni predmet istraživanja će biti prostorno-vremenske strukture podataka ali raditi ćemo i sa
mrežnim podacima, relacijskim bazama i podacima prikazanim u ontologijama. Prethodno iskustvo jasno
pokazuje da cjelovita transformacija informacija sadržanih u strukturama podataka
u formu koja može ući u proces indukcije nije nimalo lagan zadatak. Naš cilj je razviti i implementirati
sistematične i općenite postupke za tu transformaciju. Posljedica će biti eksplozija konstruiranih
značajki koje trebaju ući u proces indukcije. Zbog toga je slijedeći cilj implementacija
efikasnih postupaka indukcije. Rad uključuje razvoj novih postupaka za grupiranje primjera i otkrivanje
izuzetaka u skupovima neklasificiranih primjera i implementaciju postupaka učenja pravila sklopovljem.
Treći cilj je evaluacija i primjena implementiranih postupaka na raznim domenama.
Uspjeh projekta mjeriti će se kvalitetom i korisnošću znanja u realnim primjenama.
Suradnici
- Strahil Ristov, dr. - www
- voditelj (od 1. 1. 2017.)
- Dragan Gamberger, dr. - www
- voditelj (do 31. 12. 2016.)
- Tomislav Šmuc, dr. - www
- Ivan Michieli, dr. - www
- Branka Medved Rogina, dr. - www
- Peter Škoda, dr. - www (do 15.9.2016.)
- Damir Korenčić, znanstveni novak - www
(do 13. 12. 2016.)
- Matija Piškorec, znanstveni novak - www
- Nino Antulov-Fantulin, dr. - www
- Maria Brbić , doktorand - www (od 2.1.2015.)
- Dijana Tolić, dr. - www (od 1.1.2017.)
Tehnička podrška
Aktivnosti
- Studeni 2016., M. Piškorec održao predavanje Modeling peer and external influence in online social networks .
- Listopad 2016., Prihvaćen rad: Matej Mihelčić, Sašo Džeroski, Nada Lavrač, Tomislav Šmuc,
A framework for redescription set construction, Expert Systems with Applications.
- Listopad 2016., Prihvaćen rad: Maria Brbić , Matija Piškorec , Vedrana Vidulin , Anita Kriško , Tomislav Šmuc , Fran Supek,
The landscape of microbial phenotypic traits and their genetic determinants, Nucleic Acids Research.
- Rujan 2016., T. Šmuc i M. Brbić sudjelovali kao predavač odnosno student na Summer School on mining big and complex data .
- Srpanj 2016., D. Korenčić sudjelovao na konferenciji PolText 2016 , International Conference on the Advances in Computational Analysis of
Political Text, Dubrovnik, 14.-16.07.2016.
- Ožujak 2016., N. Antulov-Fantulin započeo post-doktorski boravak na ETH Zurich, Švicarska.
- Studeni 2015., osnovan je "Znanstveni centar izvrsnosti za znanost o podatcima i kooperativne sustave" u kojem će sudjelovati i suradnici na ovom projektu.
- Lipanj 2015., M. Piškorec sudjelovao sa posterom "Modeling peer and external infuence in online social network" na konferenciji Network Science 2015 , Zaragoza, Španjolska, 1.-5. lipnja 2015.
- Svibanj 2015., na međunarodnom takmičenju PAKDD'15 Data Mining Competition grupa suradnika na projektu predvođena Marijom Brbić osvojila je 12. mjesto i nagrađena je pozivom za sudjelovanje u završnoj prezentaciji.
- Travanj 2015., zajedno sa kolegama sa Instituta Jozef Stefan, Ljubljana organizirana dvodnevna međunarodna radionica Workshop on Knowledge Technologies 2015 sa ukupno 45 sudionika.
- Travanj 2015., N. Antulov-Fantulin je obranio doktorski rad pod naslovom: Statistical inference algorithms for epidemic processes on complex networks (Algoritmi za statističko zaključivanje o epidemijskim procesima na kompleksnim mrežama).
- Ożujak 2015,. Maestra FP7 projekt obrana nakon zavrżene prve godine odrżana u Zagrebu. photo
- Siječanj 2015., M. Brbić zaposlena kao doktorand.
- Listopad 8.-10., N. Antulov-Fantulin, D. Gamberger i T. Smuc, sudjelovali su u radu Discovery Science 2014 konferencije, Bled, Slovenija.
- 18. srpanj, Predavanje o postupcima otkrivanja izuzetaka u javnoj nabavi. Novinski članak.
- 18.-20. lipanj, drugi sastanak Maestra projekta u Portu, Portugal Project meeting.
- Članovi Zavoda za elektroniku na prvi dan početka projekta. slika.
- Veljača 2014 započeo rad na EU FP7 projektu Maestra: Learning from Massive, Incompletely Annotated, and Structured Data.
- Studeni 2013. započeo rad na EU FP7 projektu MULTIPLEX: Foundational Research on Multilevel Complex Networks and Systems.
Radovi u 2017. godini
- Gamberger, D., Lavrac, N., Srivatsa, S., Tanzi, R. E., Doraiswamy, P. M. (2017) Identification of clusters of rapid and slow decliners among subjects at risk for Alzheimer’s disease, Scientific Reports 7:6763-1-6763-12.
- Mihelcic M., Lavrac N., Dzeroski S., Smuc T. (2017) A framework for redescription set construction. Expert Systems With Applications 68:196–215.
- Mihelcic M., Dzeroski S., Lavrac N., Smuc T., (2017) Redescription mining augmented with random forest of predictive clustering trees, Journal of Intelligent Information Systems, 1-34.
- Brbic, M., Kopriva, I. (2017) Multi-view Low-rank Sparse Subspace Clustering. Pattern Recognition, In press.
- Gamberger, D., Zenko, B., Lavrac, N. (2017) Exploratory Clustering for Patient Subpopulation Discovery. In Proc. of EFMI 2017: Informatics for Health: Connected Citizen-Led Wellness and Population Health, 101-105.
- Ristov S., Vaser R., Sikic M. (2017) Trade-offs in query and target indexing for the selection of candidates in protein homology searches. Proceedings of The Prague Stringology Conference 2017, Jan Holub and Jan Zdarek (ed.). Prag, Czech Technical University in Prague.
- Brbic, M., Piskorec, M., Vidulin, V., Krisko, A., Smuc, T., Supek, F. (2017) Phenotype Inference from Text and Genomic Data. Accepted at: Joint European Conference on Machine Learning and Knowledge Discovery in Databases (ECML-PKDD).
Radovi u 2016. godini
- Gamberger, D., Zenko, B., Mitelpunkt, A., Lavrac, N. (2016) Homogeneous clusters of Alzheimer’s disease patient population.
BioMedical Engineering OnLine, 15(Suppl 1):78.
- Ristov, S. (2016) A Fast and Simple Pattern Matching with Hamming Distance on Large Alphabets.
Journal of Computational Biology, web publication.
- Gamberger, D., Zenko, B., Mitelpunkt, A., Schachar, N., Lavrac, N. (2016) Clusters of male and female Alzheimer’s disease patients in the Alzheimer’s Disease Neuroimaging Initiative (ADNI) database.
Brain Informatics, web publication.
- Skoda, P., Medved Rogina B. (2016) FPGA Kernels for Classification Rule Induction.
MIPRO 2016/DC VIS pp. 353-358.
- Ristov S., Brajkovic V., Cubric-Curik V., Michieli I., Curik I. (2016) MaGelLAn 1.0: a software to facilitate quantitative and population genetic analysis of maternal inheritance by combination of molecular and pedigree information. Genetics Selection Evolution 48:65.
- Brbic, M., Piskorec, M., Vidulin, V., Krisko, A., Smuc, T., Supek, F. (2016) The Landscape of Microbial Phenotypic Traits and Associated Genes. Nucleic Acids Research 44;10074–10090.
- Vidulin, V. , Brbic, M., Supek, F., Smuc, T. (2016) Evaluation of Fusion Approaches in Large-scale Bio-annotation Setting. 4th Workshop on Machine Learning in Life Science at ECML PKDD 2016, Riva del Garda, Italy, 37-51.
- Mihelcic M., Smuc T. (2016) InterSet: Interactive Redescription Set Exploration, Proc. of 19th International Conference on Discovery Science, Bari, Italy, October 19-21, 2016, Lecture Notes in Computer Science, Volume 9956 LNAI, 35-50.
Radovi u 2015. godini
- Piskorec, M., Sluban, B., Smuc, T. (2015) MultiNets: Web-based multilayer network visualization. Proceedings of ECML/PKDD III, pp. 298-302.
- Korencic, D., Ristov, S., Snajder, J. (2015) Getting the agenda right: Measuring media agenda using topic models. Proceedings of the 2015 Workshop on Topic Models: Post-Processing and Applications ACM 2015, pp.61-66.
- Gamberger, D., Zenko, B., Mitelpunkt, A., Lavrac, N.(2015)
Identification of gender
specific biomarkers for Alzheimer's disease. In Proc. of Brain Informatics and Health, BIH 2015, pp.57-66.
- Antulov-Fantulin, N., Lancic, A., Smuc, T., Stefanic, H., Sikic, M. (2015) Identification of patient zero in static and temporal networks: Robustness and Limitations. Physical Review Letters. Vol. 114.
- Brbic, M., Warnecke, T., Krisko, A., Supek, F. (2015) Global shifts in genome and
proteome composition are very tightly coupled. Genome Biology nd Evolution. Vol. 7:6 pp.1519-1532.
- Gamberger, D., Zenko, B., Mitelpunkt, A., Lavrac, N.(2015) Multilayer clustering: Biomarker driven segmentation of Alzheimer's disease patient population. Proceedings of Int. Work-Conference on Bioinformatics and Biomedical Engineering, IWBBIO 2015, pp.134-145.
Radovi u 2014. godini
-
Antulov-Fantulin, N., Lancic, A., Stefancic, H., Sikic, M., Smuc, T. (2014) Statistical inference framework for source detection of contagion processes on arbitrary network structures. Proceedings of 2014 IEEE Eighth International Conference on Self-Adaptive and Self-Organizing Systems Workshops, pp78-83, London, 8.-12.9.2014.
- Rios-Morales, R., Gamberger, D., Brennan, L., Sweitzer, M. (2014) Ex-ante assessment of an EU-China free trade agreement.
In Proceedings, Vrontis, Weber, Tsoukatos (Eds.), 7th EuroMed Conference - The Future of Entrepreneurship,
Kristiansand, Norway. EuroMed Press.
- Gamberger, D., Mihelcic, M., Lavrac, N. (2014) Multilayer clustering: A discovery experiment
on country level trading data. .
Discovery Science 2014 Conference Proceedings, Springer, pp 87-98 .
- Antulov-Fantulin, N., Bosnjak, M., Zlatic, V., Grcar, M., Smuc, T. (2014) Synthetic Sequence Generator for Recommender Systems - Memory Biased Random Walk on a Sequence Multilayer Network on country level trading data. .
Discovery Science 2014 Conference Proceedings, Springer, pp 25-36.
- Sluban, B., Gamberger, D., Lavrac, N. (2014) Ensemble-based noise detection: noise ranking and visual performance evaluation..
Data Mining and Knowledge Discovery, 28:265-303.