6 years, 3 months ago

Projekt zaliczeniowy dla przedmiotów Data Mining oraz SUS

None

Overview

Opis zadania

Zadanie polega na opracowaniu modelu klasyfikacji wieloetykietowej dla zbioru krótkich tekstów naukowych. Celem jest przypisanie etykiet pochodzących z klasyfikacji tematycznej ACM  do dokumentów z zbioru testowego.

Przebieg projektu

Projekt jest zorganizowany w formie konkursowej. Każdy uczestnik może zgłosić wiele rozwiązań (maksymalnie 100). Termin zakończenia to 10 czerwca 17 czerwca 2018, godz. 23:59:59 (według czasu GMT). Szczegółowe warunki udziału w konkursie znajdują się w sekcji Zasady.

Format danych

Zbiory danych udostępninych na potrzeby zadania mają format tabelki. Zbiór treningowy ma trzy kolumny oddzielone od siebie znakiem tabulacji. Dla dokumentów z każdego wiersza, w pierwszej kolumnie znajduje się identyfikator dokumentu, druga koluna zawiera właściwy tekst a trzecia kolumna zawiera listę przypisanych mu etykiet. Etykiety są rozdzielane przecinkami. Zbiór testowy ma format podobny do zbioru treningowego, lecz nie zawiera listy etykiet.

Format rozwiązań

Rozwiązanie powinno mieć format pliku tekstowego zawierającego dokładnie 100000 wierszy zakończonych znakiem końca linii. Każdy kolejny wiersz powinien zawierać listę etykiet przypisanych dokumentom z odpowiednich wierszy pliku testowego, oddzielanych od siebie przecinkami. Pliki należy przesyłać przez załadowanie ich do systemu konkursowego. Przesłaniu ostatecznego rozwiązania powinno towarzyszyć załadowanie raportu opisującego przyjętą metodę (patrz Zasady).

Wszystkie nadesłane rozwiązania będą wstępnie oceniane przez system. Ocena będzie wyliczana na podstawie małej losowej próbki z zbioru testowego, ustalonej dla wszystkich uczestników konkursu. Najlepszy wynik wstępnej oceny poszczególnych osób można śledzić na publicznej liście wyników (Leaderboard). Ocena końcowa będzie wyliczona na podstawie pozostałej części zbioru testowego.

Ocena rozwiązań

Ocena rozwiązań, zarówno częściowych jak i końcowego będzie wyliczana za pomocą uśrednionej miary F1-score wyliczonej dla etykiet przypisanych do poszczególnych dokumentów z zbioru testowego:

  • Dla wyników częściowych miara będzie wyliczana na części zbioru testowego.
  • Dla wyniku ostatecznego miara będzie wyliczana na pozostałych, nie wykorzystywanych przy ocenie częściowej przykładach testowych.

Niezależnie od uzyskanego wyniku wstępnego (średniego F1-score), rozwiązania, którym nie towarzyszy raport nie będą ostatecznie oceniane. Istotny wpływ na ostateczną liczbę punktów przyznanych za to zadanie będzie miała jakość przesłanego raportu.

Pytania odnośnie zadania można zadawać na Forum.

Terms & Conditions
 
 

Aby wziąć udział w projekcie (konkursie) należy przeczytać i zaakceptować Zasady. Rozwiązania i raport można nadsyłać do 10 czerwca 17 czerwca  2018 do 23:59:59. 

Please log in to the system!

Obowiązują następujące zasady:

  • Uczestnicy mogą przesyłać tylko rozwiązania uzyskane samodzielnie.
  • Liczba dostępnych przesłań rozwiązań częściowych została ograniczona do 100.
  • Do ewaluacji można przesyłać jedno rozwiązanie na 10 minut.
  • Do stworzenia rozwiązania można wykorzystywać jedynie dane udostępnione w konkursie.
  • Każdy uczestnik jest zobligowany do przesłaniana na koniec projektu, wraz z rozwiązaniem końcowym, krótkiego raportu opisującego rozwiązanie.
  • Raport musi zawierać informacje takie jak: Imię, nazwisko, i id uczestnika; ostatni wynik częściowy (z Leaderboard); krótki opis zastosowanych metod i narzędzi. Jakść raportu będzie miała wpływ na liczbę uzyskanych punktów.
  • Raporty nie powinny przekraczać 2000 słów i powinny zostać załadowane do systemu (jako plik PDF) przed północą 10 czerwca 17 czerwca 2018. 
  • Ocena (liczba punktów) będzie zależna od jakości rozwiązania oraz terminowości i czytelności raportu.
Please log in to the system!

Here you can follow preliminary results of other participants of the competition. Your best solution will be visible on the Leaderboard.

Rank Team Name Score Submission Date
1
baseline_solution
0.4331
2
pi384294
0.4322
3
adi_nar
0.4291
4
kmichael08
0.4265
5
pr347228
0.4210
6
subuk
0.4172
7
kobrar
0.4148
8
kasrad
0.4105
9
mp360288
0.4080
10
towca
0.4016
11
kabeem
0.3998
12
godul
0.3973
13
maciejtomaszewski
0.3970
14
karol
0.3969
15
bandy
0.3929
16
tora
0.3924
17
isia
0.3921
18
ramich
0.3907
19
dc346879
0.3884
20
qwerty
0.3863
21
tkacperek
0.3836
22
mrbk
0.3823
23
mrgrizz
0.3800
24
arkadiusz.roussau
0.3773
25
wo371276
0.3760
26
gg370808
0.3754
27
aaabbbccc
0.3737
28
doubleloop
0.3709
29
mikustosz
0.3708
30
siwy
0.3698
31
csiluszyk
0.3697
32
tgarbus
0.3566
33
borysp
0.3549
34
lraszkiewicz
0.3538
35
inpieces
0.3470
36
mryle
0.3459
37
mmacias
0.3351
38
mw371854
0.3214
39
kbial
0.3174
40
db346864
0.3124
41
hjasud
0.3091
42
nd334438
0.2992
43
bayes_brothers
0.2741
44
gortad
0.2654
45
mateuszjanczura
0.2640
46
adriannat
0.2366
47
rgod
0.2248
48
whatisgoingon
0.2068
49
sodar
0.2066
50
tronowski
0.1937
51
raulmm7
0.0309
52
leafproduction
0.0272
53
msonic
0.0031
54
magrod
0.0000
55
mwachulec
0.0000
56
szarki
0.0000