ISRC, ISWC och MBID: en guide till standarder för musikmetadata

När en låt rör sig genom det digitala musiklandskapet följs den av en osynlig svans av identifierare och metadata. Utan dessa koder skulle ingen kunna räkna ut vem som ska få betalt, vilken inspelning en strömningstjänst faktiskt spelar upp eller hur många versioner som finns av samma komposition. För musikforskaren är samma metadata råmaterial: den gör det möjligt att koppla ihop kataloger, spåra verk över tid och bygga tillförlitliga dataset. Den här guiden förklarar de viktigaste standarderna för musikmetadata och hur de hänger ihop.

Två lager: verket och inspelningen

Det första man behöver förstå är att en bit musik existerar i minst två separata lager. Det finns kompositionen, alltså själva verket med melodi och text, och det finns den enskilda inspelningen av verket. En och samma komposition kan spelas in hundratals gånger av olika artister, och varje sådan inspelning är en egen entitet med egen identitet. Den här åtskillnaden är inte akademisk hårklyveri. Den avgör vilken standard som gäller och vem som administrerar den.

Förvirring kring de två lagren är en av de vanligaste källorna till fel i musikdata. När du bygger ett dataset behöver du veta om en rad i tabellen syftar på ett verk eller en inspelning, eftersom matchningar mellan kataloger annars blir missvisande.

ISRC: koden för inspelningen

International Standard Recording Code, ISRC, identifierar en specifik ljud- eller musikvideoinspelning. Standarden är fastställd som ISO 3901, och IFPI utsågs av ISO till registreringsmyndighet redan 1989. En ISRC består av tolv alfanumeriska tecken enligt mönstret CC-XXX-YY-NNNNN.

De fyra delarna betyder följande. De två första tecknen är en landkod som anger var koden tilldelades. De tre följande är en registrantkod som identifierar utgivaren. De två därefter anger referensår, alltså de två sista siffrorna i det år koden tilldelades inspelningen. De fem sista tecknen är en löpnummerkod som är unik inom referensåret. En fullständig ISRC kan exempelvis skrivas SE-XYZ-26-12345. Den fullständiga specifikationen finns i IFPI:s ISRC-handbok.

En viktig egenskap är att ISRC är knuten till inspelningen, inte till var den distribueras. Samma inspelning behåller sin ISRC oavsett om den ligger på en strömningstjänst, en cd eller i ett arkiv. Det gör koden ovärderlig för forskaren som vill följa en inspelning mellan olika kataloger. Samtidigt finns en känd svaghet: i praktiken förekommer dubblettkoder och felaktigt tilldelade ISRC, vilket gör att man inte blint kan lita på att en kod alltid pekar på exakt en inspelning.

ISWC: koden för verket

Där ISRC tar hand om inspelningen tar International Standard Musical Work Code, ISWC, hand om själva verket. Standarden är ISO 15707 och administreras av CISAC, den internationella samarbetsorganisationen för upphovsrättssällskap. En ISWC är ofta jämförd med ett ISBN för böcker, eftersom den identifierar den underliggande kompositionen oavsett hur många gånger den spelats in.

Strukturen är enkel. Koden inleds med ett prefix, hittills alltid bokstaven T för musikaliska verk, följt av nio siffror som utgör verkidentifieraren och avslutas med en kontrollsiffra. Ett exempel skrivs som T-123.456.789-C, där punkterna och bindestrecken bara är till för läsbarheten. Eftersom ett verk bara får en enda ISWC men kan ha många ISRC, är förhållandet mellan de två koderna ett till många. Det är just denna relation som gör det möjligt att samla alla inspelningar av en komposition under ett gemensamt tak vid analys.

MusicBrainz och MBID: den öppna kartan

Standarderna ovan är formella och delvis stängda. Vid sidan av dem finns MusicBrainz, en öppen musikencyklopedi som drivs av den ideella MetaBrainz Foundation. MusicBrainz tilldelar varje entitet i sin databas en MusicBrainz Identifier, MBID. En MBID är en universellt unik identifierare i UUID-format, alltså trettiosex tecken som i 0383dadf-2a4e-4d10-a46a-e9e041da8eb3.

Det som gör MusicBrainz särskilt användbart för forskning är bredden. MBID tilldelas inte bara artister och inspelningar utan även release groups, releaser, verk, skivbolag, platser och relationer mellan dessa. Det betyder att man kan navigera ett helt nätverk av kopplingar i stället för isolerade poster.

Licensieringen är dessutom forskarvänlig. MusicBrainz kärndata är släppt under CC0, vilket i praktiken placerar den i public domain utan villkor. Vissa kompletterande delar av databasen ligger i stället under Creative Commons Erkännande-IckeKommersiell-DelaLika, vilket ställer krav på attribution och begränsar kommersiell användning. För akademiskt bruk är detta sällan ett hinder, men det är värt att kontrollera vilken del av datan man hämtar. Du kan läsa villkoren i sin helhet i MusicBrainz datalicens-dokumentation.

Hur koderna hänger ihop i praktiken

Föreställ dig att du vill studera hur en bestämd låt har tolkats genom decennierna. Du börjar med kompositionens ISWC, som binder samman alla inspelningar av verket. Varje enskild inspelning har sin egen ISRC. Via MusicBrainz kan du sedan länka ihop dessa identifierare med artister, releaser och samarbeten genom deras MBID. Resultatet är en sammanhängande karta över ett verks liv i inspelad form.

I verkligheten är kartan sällan komplett. Metadata saknas, koder är felaktiga och olika kataloger använder olika konventioner. En stor del av det praktiska arbetet i musikvetenskaplig dataanalys handlar därför om att rensa och matcha poster mot varandra. Att förstå vilken standard som styr vilket lager är första steget mot att göra det arbetet rätt.

Att tänka på vid datainsamling

Några principer underlättar arbetet med musikmetadata. Behandla alltid verk och inspelning som skilda saker, även när källan blandar ihop dem. Använd identifierare som primärnyckel i stället för titlar, eftersom titlar varierar i stavning och språk. Var medveten om att en identifierare kan saknas eller vara fel, och bygg in kontroller för det. Och dokumentera vilken källa varje kod kommer ifrån, så att en framtida läsare kan bedöma tillförlitligheten.

Den som behärskar dessa standarder har en stadig grund att stå på. Metadata är inte glamoröst, men det är limmet som håller ihop all kvantitativ musikforskning. För en djupare bild av hur strukturerad data används i forskningssammanhang, se vår artikel om musikmetadata i forskningen.