mining

wonderland-alarm!

kathrin passig hat in ihrem buzzfeed gleich zweimal kurz hintereinander auf blogartikel verlinkt die sich mit datamining beschäftigen. und zwar von der sorte die ich auf magische art und weise bewundere: absurd große datenmengen, wissenschaftliche methoden und abstruse theorien führen zu erkenntnissen, die otto normal informatiker bisher nicht erahnen konnte. mir schwirrt der kopf.

beim ersten verlinkten artikel hat man blogs nach phrasen durchsucht, welche die aktive einnahme von antidepressiva nahelegen und dann den text auf phrasen mit wertungen und nebenwirkungen analysiert. überschrieben war das mit “was das netz über antidepressiva denkt“. von der idee her, eine ziemlich geile methode um meta-kontext herzustellen. auch wenn man die bewertungslogik noch von hand eingeben musste. den ganzen artikel gibts bei neurosceptic

und beim zweiten link bin ich dann in den kaninchenbau gefallen.
es hat harmlos angefangen und sah nur wie ein spontanes experiment aus: “was menschen weißer hautfarbe wirklich wollen“. die text analyse einer datingseite – eine halbe million userprofile. hmkay. textanalyse mit unterscheidung nach rasse. dunkelhäutige mögen soul food. soso. die zusammenhänge zwischen lesbarkeit und religion fand ich dann schon interessanter – nicht nur wegen des ertragreichen hinweises auf statistische methoden zur textanalyse (inclusive WebZwoNullTool).
aber zurück zum eigentlichen artikel. der war nämlich kein einzelfall. das blog gibts seit über einem jahr und die schreiben über genau das: datamining im dating-profil. einige artikel früher hatte der autor über die häufigkeit politischer ansichten nach alter geschrieben. ziemlich abgefahren. ist zwar alles auf englisch, aber die diagramme sind meist recht sprechend.

die letzte frage lautet für mich gerade: kann ich sowas auf arbeit einsetzen um zum beispiel redakteure bessere texte schreiben zu lassen? oder auch um “werbung” für datamining zu machen, damit mal endlich interessante diagramme erstellt werden können?

nachtrag: es gibt doch eine deutsche wikipediaseite zum lesbarkeitsindex