Genreklassificering med data: hur musik kategoriseras med MIR

Att placera en låt i en genre känns självklart för en lyssnare. Vi hör direkt att något är jazz, hiphop eller folkmusik. Men när uppgiften ska lösas av en dator, eller analyseras systematiskt av en forskare, visar sig genre vara en av musikens svåraste och mest omtvistade kategorier. Den här guiden förklarar hur genreklassificering görs med data, vilka metoder fältet använder och varför resultaten ska tolkas med försiktighet.

Musikinformationssökning som fält

Genreklassificering hör hemma i forskningsfältet musikinformationssökning, på engelska music information retrieval eller MIR. Det är en tvärvetenskaplig disciplin som hämtar metoder från musikvetenskap, signalbehandling och maskininlärning för att utvinna meningsfull information ur musik. Det ledande forumet för denna forskning är konferensen International Society for Music Information Retrieval, ISMIR, vars publikationer utgör en viktig kunskapsbas för den som vill fördjupa sig.

Inom MIR är genreklassificering en av de äldsta och mest studerade uppgifterna. Den handlar om att tilldela ett musikstycke en av flera fördefinierade kategorier, exempelvis klassiskt, jazz eller rock. Närbesläktade uppgifter är att känna igen stämning, identifiera artist eller bestämma instrument.

Två vägar till data: ljudet och metadatan

Genreklassificering kan bygga på två olika typer av data. Den ena vägen utgår från själva ljudsignalen och extraherar akustiska egenskaper direkt ur inspelningen. Den andra vägen utgår från metadata och taggar, alltså text som redan kopplats till musiken av människor eller andra system. De två vägarna har olika styrkor och kombineras ofta.

Akustiska egenskaper ur ljudet

När man arbetar med ljudet reducerar man inspelningen till en uppsättning numeriska egenskaper, så kallade features. En av de mest använda är Mel-frequency cepstral coefficients, MFCC, som fångar klangfärgen i ljudet. Andra egenskaper beskriver tonalitet, harmonik, melodi, tempo och rytmiska mönster. Dessa lägre nivåers egenskaper matas sedan in i en klassificerare som lär sig att koppla mönster i egenskaperna till genreetiketter.

Många av dessa egenskaper är besläktade med de ljudegenskaper som strömningstjänster och dataset beskriver musik med. Hur sådana egenskaper definieras och mäts har vi gått igenom i vår artikel om ljudegenskaper i musikdata.

Taggar och metadata

Den andra vägen utnyttjar att mycket musik redan är taggad. Användargenererade taggar från plattformar och kataloger kan användas både som etiketter att träna mot och som egenskaper i sig. Fördelen är att mänskliga taggar fångar kulturell kontext som ljudet ensamt missar. Nackdelen är att taggar är inkonsekventa, eftersom olika människor använder olika ord för samma musik.

Varför genre är så svårt att mäta

Den grundläggande svårigheten är att genre inte är en egenskap hos ljudet utan en social och kulturell konstruktion. En och samma låt kan rimligen kallas både soul och rnb beroende på vem som frågar och i vilket sammanhang. Genrer överlappar, glider in i varandra och förändras över tid. Det betyder att det sällan finns ett objektivt facit att jämföra en klassificerare mot.

Till detta kommer att gränserna mellan genrer är oskarpa snarare än skarpa. En artist kan medvetet blanda stilar, och en hel subgenre kan uppstå just i mellanrummet mellan två etablerade kategorier. En klassificerare som tvingas välja exakt en etikett döljer denna mångtydighet i stället för att fånga den.

GTZAN: ett varnande exempel om dataset

Ingen genomgång av genreklassificering är komplett utan historien om GTZAN. Det är ett dataset som sammanställdes av George Tzanetakis i ett inflytelserikt arbete från 2002. Det består av tusen ljudklipp på trettio sekunder vardera, jämnt fördelade över tio genrer. Eftersom det var ett av de första fritt tillgängliga dataseten för uppgiften blev det snabbt en de facto-standard, och en stor andel av all forskning om genreigenkänning har använt det.

Problemet är att datasetet visade sig vara behäftat med allvarliga fel. I en grundlig granskning från 2012 dokumenterade forskaren Bob Sturm en rad brister i en uppmärksammad analys: samma inspelning förekommer på flera ställen, vissa spår är feletiketterade och andra är förvanskade eller av låg kvalitet. Sturm visade bland annat att låtar av Aaliyah och Pink hade etiketterats som hiphop, trots att lyssnare snarare kategoriserade dem som rnb.

Lärdomen är dubbel. Dels att resultat som bygger på ett felaktigt dataset är svåra att tolka, hur avancerad metoden än är. Dels att ett dataset som blir standard fortsätter att prägla ett helt fält långt efter att dess brister blivit kända. För forskaren är detta en påminnelse om att alltid granska sina datakällor kritiskt innan slutsatser dras.

Hur resultat ska tolkas

När en studie rapporterar att en modell klassificerar genre med hög träffsäkerhet finns flera frågor att ställa. Vilket dataset användes, och har det kända fel? Hur definierades genrerna, och av vem? Mäter modellen verkligen genre, eller har den lärt sig att känna igen något annat som råkar samvariera med etiketterna, exempelvis inspelningsteknik eller produktionsår? En hög siffra säger lite utan svar på dessa frågor.

Det betyder inte att genreklassificering är meningslös. Den är värdefull för att organisera stora kataloger, för att driva rekommendationssystem och för att studera hur musikaliska stilar fördelar sig och förändras. Men resultaten är bäst förstådda som approximationer av en kulturell kategori, inte som mätningar av en objektiv sanning.

Sammanfattning

Genreklassificering med data kombinerar akustiska egenskaper ur ljudet med taggar och metadata, och utgör en kärnuppgift inom musikinformationssökning. Den största utmaningen är inte tekniken utan att genre i grunden är en social konstruktion utan objektivt facit. Historien om GTZAN visar hur viktigt det är att granska sina dataset. Den som närmar sig fältet med öppna ögon för dessa begränsningar kan ändå dra stor nytta av genredata, så länge slutsatserna håller sig inom det som datan faktiskt kan visa. För ett bredare perspektiv på strukturerad musikdata, se vår artikel om musikmetadata i forskningen.