6 years, 3 months ago
Projekt zaliczeniowy dla przedmiotów Data Mining oraz SUS
None
Opis zadania
Zadanie polega na opracowaniu modelu klasyfikacji wieloetykietowej dla zbioru krótkich tekstów naukowych. Celem jest przypisanie etykiet pochodzących z klasyfikacji tematycznej ACM do dokumentów z zbioru testowego.
Przebieg projektu
Projekt jest zorganizowany w formie konkursowej. Każdy uczestnik może zgłosić wiele rozwiązań (maksymalnie 100). Termin zakończenia to 10 czerwca 17 czerwca 2018, godz. 23:59:59 (według czasu GMT). Szczegółowe warunki udziału w konkursie znajdują się w sekcji Zasady.
Format danych
Zbiory danych udostępninych na potrzeby zadania mają format tabelki. Zbiór treningowy ma trzy kolumny oddzielone od siebie znakiem tabulacji. Dla dokumentów z każdego wiersza, w pierwszej kolumnie znajduje się identyfikator dokumentu, druga koluna zawiera właściwy tekst a trzecia kolumna zawiera listę przypisanych mu etykiet. Etykiety są rozdzielane przecinkami. Zbiór testowy ma format podobny do zbioru treningowego, lecz nie zawiera listy etykiet.
Format rozwiązań
Rozwiązanie powinno mieć format pliku tekstowego zawierającego dokładnie 100000 wierszy zakończonych znakiem końca linii. Każdy kolejny wiersz powinien zawierać listę etykiet przypisanych dokumentom z odpowiednich wierszy pliku testowego, oddzielanych od siebie przecinkami. Pliki należy przesyłać przez załadowanie ich do systemu konkursowego. Przesłaniu ostatecznego rozwiązania powinno towarzyszyć załadowanie raportu opisującego przyjętą metodę (patrz Zasady).
Wszystkie nadesłane rozwiązania będą wstępnie oceniane przez system. Ocena będzie wyliczana na podstawie małej losowej próbki z zbioru testowego, ustalonej dla wszystkich uczestników konkursu. Najlepszy wynik wstępnej oceny poszczególnych osób można śledzić na publicznej liście wyników (Leaderboard). Ocena końcowa będzie wyliczona na podstawie pozostałej części zbioru testowego.
Ocena rozwiązań
Ocena rozwiązań, zarówno częściowych jak i końcowego będzie wyliczana za pomocą uśrednionej miary F1-score wyliczonej dla etykiet przypisanych do poszczególnych dokumentów z zbioru testowego:
- Dla wyników częściowych miara będzie wyliczana na części zbioru testowego.
- Dla wyniku ostatecznego miara będzie wyliczana na pozostałych, nie wykorzystywanych przy ocenie częściowej przykładach testowych.
Niezależnie od uzyskanego wyniku wstępnego (średniego F1-score), rozwiązania, którym nie towarzyszy raport nie będą ostatecznie oceniane. Istotny wpływ na ostateczną liczbę punktów przyznanych za to zadanie będzie miała jakość przesłanego raportu.
Pytania odnośnie zadania można zadawać na Forum.
Aby wziąć udział w projekcie (konkursie) należy przeczytać i zaakceptować Zasady. Rozwiązania i raport można nadsyłać do 10 czerwca 17 czerwca 2018 do 23:59:59.
Obowiązują następujące zasady:
- Uczestnicy mogą przesyłać tylko rozwiązania uzyskane samodzielnie.
- Liczba dostępnych przesłań rozwiązań częściowych została ograniczona do 100.
- Do ewaluacji można przesyłać jedno rozwiązanie na 10 minut.
- Do stworzenia rozwiązania można wykorzystywać jedynie dane udostępnione w konkursie.
- Każdy uczestnik jest zobligowany do przesłaniana na koniec projektu, wraz z rozwiązaniem końcowym, krótkiego raportu opisującego rozwiązanie.
- Raport musi zawierać informacje takie jak: Imię, nazwisko, i id uczestnika; ostatni wynik częściowy (z Leaderboard); krótki opis zastosowanych metod i narzędzi. Jakść raportu będzie miała wpływ na liczbę uzyskanych punktów.
- Raporty nie powinny przekraczać 2000 słów i powinny zostać załadowane do systemu (jako plik PDF) przed północą 10 czerwca 17 czerwca 2018.
- Ocena (liczba punktów) będzie zależna od jakości rozwiązania oraz terminowości i czytelności raportu.
Here you can follow preliminary results of other participants of the competition. Your best solution will be visible on the Leaderboard.
Rank | Team Name | Score | Submission Date |
---|---|---|---|
1 | baseline_solution |
0.4331 | |
2 | pi384294 |
0.4322 | |
3 | adi_nar |
0.4291 | |
4 | kmichael08 |
0.4265 | |
5 | pr347228 |
0.4210 | |
6 | subuk |
0.4172 | |
7 | kobrar |
0.4148 | |
8 | kasrad |
0.4105 | |
9 | mp360288 |
0.4080 | |
10 | towca |
0.4016 | |
11 | kabeem |
0.3998 | |
12 | godul |
0.3973 | |
13 | maciejtomaszewski |
0.3970 | |
14 | karol |
0.3969 | |
15 | bandy |
0.3929 | |
16 | tora |
0.3924 | |
17 | isia |
0.3921 | |
18 | ramich |
0.3907 | |
19 | dc346879 |
0.3884 | |
20 | qwerty |
0.3863 | |
21 | tkacperek |
0.3836 | |
22 | mrbk |
0.3823 | |
23 | mrgrizz |
0.3800 | |
24 | arkadiusz.roussau |
0.3773 | |
25 | wo371276 |
0.3760 | |
26 | gg370808 |
0.3754 | |
27 | aaabbbccc |
0.3737 | |
28 | doubleloop |
0.3709 | |
29 | mikustosz |
0.3708 | |
30 | siwy |
0.3698 | |
31 | csiluszyk |
0.3697 | |
32 | tgarbus |
0.3566 | |
33 | borysp |
0.3549 | |
34 | lraszkiewicz |
0.3538 | |
35 | inpieces |
0.3470 | |
36 | mryle |
0.3459 | |
37 | mmacias |
0.3351 | |
38 | mw371854 |
0.3214 | |
39 | kbial |
0.3174 | |
40 | db346864 |
0.3124 | |
41 | hjasud |
0.3091 | |
42 | nd334438 |
0.2992 | |
43 | bayes_brothers |
0.2741 | |
44 | gortad |
0.2654 | |
45 | mateuszjanczura |
0.2640 | |
46 | adriannat |
0.2366 | |
47 | rgod |
0.2248 | |
48 | whatisgoingon |
0.2068 | |
49 | sodar |
0.2066 | |
50 | tronowski |
0.1937 | |
51 | raulmm7 |
0.0309 | |
52 | leafproduction |
0.0272 | |
53 | msonic |
0.0031 | |
54 | magrod |
0.0000 | |
55 | mwachulec |
0.0000 | |
56 | szarki |
0.0000 |