Qlik Word Cloud

Med Qlik Sense kommer en intressant typ av graf som kallas Word Cloud. Grafer av denna typ visar ofta den relativa frekvensen av ord i en text – desto större textstorlek desto vanliga ord.

För att använda objektet måste man ha valt att installera Qlik Visualization Bundle vid installationen av Qlik Sense. Det här paketet är utvalda tillägg som Qlik valt ut och paketerat med installationen. Objekten är alltså inte skapade av Qlik själva, men Qlik har verifierat stabilitet och säkerhet i objekten. Paketet är som standard tillgängligt i Qlik Cloud.

För att analysera en text behöver meningar brytas ned i enskilda ord. Man bör också likställa ”Sommar” med ”sommar” så att stora och små bokstäver inte delar upp måttet. Vidare kan man ofta sortera bort vissa vanligt förekommande ord som ”och”, ”att” och liknande. Allt detta gör man enklast i scriptet med funktioner som subfield(), lower() och diverse filter.

Som standard visas orden i grafen med som stående och liggande. Detta ger en snygg effekt, men gör det också svårare att läsa vissa ord. En intressant fråga är om ett mänskligt öga läser ett större ord som står med mindre ”värde” än ett mindre ord som ligger ner och därmed är lättare att läsa? Detta kan anpassas i inställningarna genom att sätta Appearance -> Design -> Orientations till 1 och ändra Start Angle till 0.

Word Cloud av John Cleese tal Creativity in Management där ord med längd mindre än fem tecken tagits bort

Sommartal av partiledare
Varje sommar håller flertalet partiledare sommartal där de berättar om hur partiet ser på politiken, framtiden och annat viktigt. Nu ska vi titta närmre på två av partiledarnas sommartal 2020 och bryta ner deras ord i Word Clouds.

Stefan Löfven var sommaren 2020 partiledare för Socialdemokraterna och även statsminister för Sverige. En utskrift av Stefans tal går att hitta på Socialdemokraternas hemsida. Genom att kopiera texten från sidan till en textfil och sedan plocka bort delar som inte ingår i talet får vi en datafil som går att ladda in i Qlik Sense.

Ett trick när man läser in en textfil är att sätta ett avskiljetecken (tecken som normalt skulle vara mellan kolumner av data) till något som vi inte har. I detta fall har jag valt NUL-tecken.

När vi läser in texten väljer vi att göra alla bokstäver små, ta bort vissa specialtecken (till exempel utropstecken, punkt och komma), ta bort överflödiga mellanslag och sedan dela upp texten med hjälp av mellanslag. Då får vi ett ord per rad i data.

Vissa ord är inte intressanta för vår uppföljning – det gäller till exempel ”och”, ”den” och ”att”. Ett snabbt urval kan ge oss att vi bara vill titta på ord med fem tecken eller fler. Vi kan också filtrera bort enskilda ord som dyker upp som vanliga – till exempel ”annat”.

När vi gjort detta kan vi visualisera informationen i ett Word Cloud. Vi skapar ett nytt Word Cloud och väljer dimensionen TextS med ett mått count(TextS). Måttet räknar ut vilka ord som är vanligast.

Grafen kommer bara visa 100 ord och det är viktigt för oss att det är de hundra största. Därför väljer vi att sortera på måttet (störst först) istället för dimensionen.

Vidare vill vi göra texten lättläst, så vi väljer att alla ord ska vara liggande. Nu får vi en graf som visar vilka ord som Stefan Löfven använde mest.

På samma sätt kan vi också hämta sommartalet för partiledaren för moderaterna, Ulf Kristersson, på Moderaternas hemsida. Med samma filtreringar får vi fram ett till Word Cloud och vi kan nu ställa dessa bredvid varandra för att se vad de två partiledarna har gemensamt och vad som skiljer deras tal åt.

Word Cloud för Stefan Löfvens och Ulf Kristerssons tal. Klicka på bilden för att förstora den.

Dela inlägget
LinkedIn