Data mining och humanvetenskapliga frågeställningar

Data mining är ordet för dagen. I en tid när gemene man ser informationsmängden som ett problem, och kämpar för att kunna navigera, välja och välja bort, finns det andra aktörer som tvärt om arbetar för att göra detta överflöd till en tillgång. Många känner säkert till hur Google förra hösten kunde spåra hur influensan spred sig över världen genom att analysera de enorma mängder data som finns i sociala nätverk eller de sökord som folk använder i sökmotorer. En ökad sökning på en rad klassiska influensasymtom och beskrivning av tillstånd på twitter och facebook gjorde att man kunde följa hur epidemin fortplantade sig geografiskt. Det är fascinerande och i det här fallet troligen långt mer tillförlitligt än data från vårdcentraler som förmodligen har större mörkertal. (The Economist hade en special report med titeln Data deluge för ett par nummer sedan.)

Data mining var också fokus för Pelle Snickars understreckare i SvD i torsdags. Han visar på ett antal humanistiska forskningsprojekt som syftar till att göra nytta av den mängd inskannat material som nu så sakteliga börjar finnas tillgängligt för forskning. Det är, som Snickars påpekar, omöjligt för en forskare att läsa 30 000 böcker från 1800-talets brittiska bokutgivning, men för en dator går det fint. På samma sätt kan vår kunskap om rättsväsendet i förfluten tid öka genom en analys av domstolsprotokoll en masse som nu finns tillgängliga i digital form. Fantastiska möjligheter öppnar sig.

Men en möjlighet för någon kan bli en fara för någon annan. Särskilt litteraturvetarna bör akta sig i den digitala framtiden. Snickars frågar avsiktligt spetsigt: ”Bör exempelvis litteraturforskningen förhålla sig till [dessa nya möjligheter], eller kan den lugnt fortsätta att ägna sig åt den kanoniserade promillen av bokutgivning som länge varit fallet?” Här gäller det att passa sig så man inte hamnar på fel sida skranket. Vem vill inte vara en ”skarpsint forskare” som Snickars dristar sig till att kalla dem som förstår och kan utnyttja de nya möjligheterna. Vad blir det av den som ägnar sig åt hermeneutisk analys, även om denna inte i huvudsak fokuserar på kanoniserade verk undrar läsaren.

Att Snickars inlägg är mättat med framtidsmetaforer och starkt värderande formuleringar är inte ägnat att förvåna, för detta är om inte i huvudsak så i alla fall i stor utsträckning ett debattinlägg. Digitalisering tycks gå långsamt på KB där Snickars är forskningschef och man har helt sonika stoppat insamlingen av sidor på Internet med motiveringen att man inväntar den nya lag som snart ska komma. (Att det är ont om pengar ligger väl närmare sanningen.) Irritationen är, får man förmoda, stor över hur nationalbiblioteket tar myrsteg in i den nya tiden. I det ljuset är Snickars föredragshållande och debattinlägg viktiga för att skapa diskussion och förhoppningsvis förändring. (Läs MarieLouise Samuelssons intervju i Biblioteksbladet.) För han har ju helt rätt i att KB bör gå i bräschen som nationell kulturarvsinstitution.

Och visst har Snickars en rad poänger även i detta fall och visst kan  man ryckas med i hans fascination. Jag kan själv omedelbart se ett case i en större studie där det faktum att vårt källmaterial är helt digitaliserat utgör en spännande möjlighet. Men till en början erbjuder dessa möjligheter just ett ”korrektiv” till vår kunskap om det förflutna och den mänskliga erfarenheten. Det är ett begrepp som litteraturforskaren Franco Moretti använder och Snickars citerar, men det försvinner i flodvågen som kvantiteten erbjuder. Det är synd. En mer nyanserad diskussion är verkligen välkommen så att vi inte hamnar i en situation med starka motsättningar.

För att kvantitet i dag skulle vara alltmer liktydigt med kvalitet, som Snickars skriver på ett ställe, är helt enkelt inte sant. Och det kommer förmodligen aldrig att vara sant. Däremot kan vi numera lära oss mycket ur stor mängd information. Men fortfarande är det oklart hur detta faktiskt ska gå till. Här hade man önskat en djupare diskussion, för det är ju detta som är det riktigt intressanta: vilka frågor kan vi ställa till det här nya materialet? Hur ska vi utarbeta metoder och hur ska vi hantera och tolka svaren? Vad är det för ny kunskap vi kan få fram? Och hur kan vi lära oss ännu mer genom att kombinera det gamla och det nya?

En total digitalisering av all text är visserligen möjlig, men frågan är om det är önskvärt. (För närvarande tyder prognoser på att vi genererar ny data i större mängd än vi kan spara, vilket innebär att digitaliseringen av äldre data blir en fråga om att göra val.) Och även om vi faktiskt digitaliserar all text så är det många frågor som kvantitet inte svarar på. Jag hoppas att det även i framtiden ska få finnas en och annan litteraturvetare som dyker djupt i James Joyce och försöker förstå varför, inte bara hur och på vilket sätt. Den frågan lovar nämligen vara allmänmänskligt giltig, oavsett lagrings- eller åtkomstmedia.

Författare: Nina Wormbs

Historian of science, technology and environment, Professor at KTH Royal Institute of Technology, Stockholm, Sweden

%d bloggare gillar detta: