Projekt zaliczeniowy 2018

forgot-password?

or Create an account

7 years, 10 months ago

Projekt zaliczeniowy dla przedmiotów Data Mining oraz SUS

None

Overview

Opis zadania

Zadanie polega na opracowaniu modelu klasyfikacji wieloetykietowej dla zbioru krótkich tekstów naukowych. Celem jest przypisanie etykiet pochodzących z klasyfikacji tematycznej ACM do dokumentów z zbioru testowego.

Przebieg projektu

Projekt jest zorganizowany w formie konkursowej. Każdy uczestnik może zgłosić wiele rozwiązań (maksymalnie 100). Termin zakończenia to 10 czerwca 17 czerwca 2018, godz. 23:59:59 (według czasu GMT). Szczegółowe warunki udziału w konkursie znajdują się w sekcji Zasady.

Format danych

Zbiory danych udostępninych na potrzeby zadania mają format tabelki. Zbiór treningowy ma trzy kolumny oddzielone od siebie znakiem tabulacji. Dla dokumentów z każdego wiersza, w pierwszej kolumnie znajduje się identyfikator dokumentu, druga koluna zawiera właściwy tekst a trzecia kolumna zawiera listę przypisanych mu etykiet. Etykiety są rozdzielane przecinkami. Zbiór testowy ma format podobny do zbioru treningowego, lecz nie zawiera listy etykiet.

Format rozwiązań

Rozwiązanie powinno mieć format pliku tekstowego zawierającego dokładnie 100000 wierszy zakończonych znakiem końca linii. Każdy kolejny wiersz powinien zawierać listę etykiet przypisanych dokumentom z odpowiednich wierszy pliku testowego, oddzielanych od siebie przecinkami. Pliki należy przesyłać przez załadowanie ich do systemu konkursowego. Przesłaniu ostatecznego rozwiązania powinno towarzyszyć załadowanie raportu opisującego przyjętą metodę (patrz Zasady).

Wszystkie nadesłane rozwiązania będą wstępnie oceniane przez system. Ocena będzie wyliczana na podstawie małej losowej próbki z zbioru testowego, ustalonej dla wszystkich uczestników konkursu. Najlepszy wynik wstępnej oceny poszczególnych osób można śledzić na publicznej liście wyników (Leaderboard). Ocena końcowa będzie wyliczona na podstawie pozostałej części zbioru testowego.

Ocena rozwiązań

Ocena rozwiązań, zarówno częściowych jak i końcowego będzie wyliczana za pomocą uśrednionej miary F₁-score wyliczonej dla etykiet przypisanych do poszczególnych dokumentów z zbioru testowego:

Dla wyników częściowych miara będzie wyliczana na części zbioru testowego.
Dla wyniku ostatecznego miara będzie wyliczana na pozostałych, nie wykorzystywanych przy ocenie częściowej przykładach testowych.

Niezależnie od uzyskanego wyniku wstępnego (średniego F₁-score), rozwiązania, którym nie towarzyszy raport nie będą ostatecznie oceniane. Istotny wpływ na ostateczną liczbę punktów przyznanych za to zadanie będzie miała jakość przesłanego raportu.

Pytania odnośnie zadania można zadawać na Forum.

Terms & Conditions

Zasady

Aby wziąć udział w projekcie (konkursie) należy przeczytać i zaakceptować Zasady. Rozwiązania i raport można nadsyłać do 10 czerwca 17 czerwca 2018 do 23:59:59.

Please log in to the system!

Zasady

Obowiązują następujące zasady:

Uczestnicy mogą przesyłać tylko rozwiązania uzyskane samodzielnie.
Liczba dostępnych przesłań rozwiązań częściowych została ograniczona do 100.
Do ewaluacji można przesyłać jedno rozwiązanie na 10 minut.
Do stworzenia rozwiązania można wykorzystywać jedynie dane udostępnione w konkursie.
Każdy uczestnik jest zobligowany do przesłaniana na koniec projektu, wraz z rozwiązaniem końcowym, krótkiego raportu opisującego rozwiązanie.
Raport musi zawierać informacje takie jak: Imię, nazwisko, i id uczestnika; ostatni wynik częściowy (z Leaderboard); krótki opis zastosowanych metod i narzędzi. Jakść raportu będzie miała wpływ na liczbę uzyskanych punktów.
Raporty nie powinny przekraczać 2000 słów i powinny zostać załadowane do systemu (jako plik PDF) przed północą 10 czerwca 17 czerwca 2018.
Ocena (liczba punktów) będzie zależna od jakości rozwiązania oraz terminowości i czytelności raportu.

Please log in to the system!

Leaderboard

Here you can follow preliminary results of other participants of the competition. Your best solution will be visible on the Leaderboard.

Rank	Team Name	Score
1	baseline_solution	0.4331
2	pi384294	0.4322
3	adi_nar	0.4291
4	kmichael08	0.4265
5	pr347228	0.4210
6	subuk	0.4172
7	kobrar	0.4148
8	kasrad	0.4105
9	mp360288	0.4080
10	towca	0.4016
11	kabeem	0.3998
12	godul	0.3973
13	maciejtomaszewski	0.3970
14	karol	0.3969
15	bandy	0.3929
16	tora	0.3924
17	isia	0.3921
18	ramich	0.3907
19	dc346879	0.3884
20	qwerty	0.3863
21	tkacperek	0.3836
22	mrbk	0.3823
23	mrgrizz	0.3800
24	arkadiusz.roussau	0.3773
25	wo371276	0.3760
26	gg370808	0.3754
27	aaabbbccc	0.3737
28	doubleloop	0.3709
29	mikustosz	0.3708
30	siwy	0.3698
31	csiluszyk	0.3697
32	tgarbus	0.3566
33	borysp	0.3549
34	lraszkiewicz	0.3538
35	inpieces	0.3470
36	mryle	0.3459
37	mmacias	0.3351
38	mw371854	0.3214
39	kbial	0.3174
40	db346864	0.3124
41	hjasud	0.3091
42	nd334438	0.2992
43	bayes_brothers	0.2741
44	gortad	0.2654
45	mateuszjanczura	0.2640
46	adriannat	0.2366
47	rgod	0.2248
48	whatisgoingon	0.2068
49	sodar	0.2066
50	tronowski	0.1937
51	raulmm7	0.0309
52	leafproduction	0.0272
53	msonic	0.0031
54	magrod	0.0000
55	mwachulec	0.0000
56	szarki	0.0000