partikelfernsteuerung


Wikipedia ist die definitive Datenbank

In den letzten Wochen gab es ein bisschen Bewegung im Suchmaschinenmarkt. Das eher wissenschaftlich orientierte Wolfram|Alpha bekam viel Beachtung, Microsoft versucht bei Bing mit einer nützlichen Benutzeroberfläche zu punkten und Google zeigt seit ein paar Tagen mit Squared, dass man durchaus Fortschritte gemacht hat, wenn es darum geht, Begriffe auf semantischer Ebene einzuordnen. Nur eins bietet bisher noch niemand: Die ziemlich gut strukturierten Informationen der Wikipedia vernünftig zu erschließen.

Kategorisch informativ

Mit Kategorien, denen jeder Artikel angehört, und standardisierten Infoboxen für bestimmte Einträge bietet Wikipedia gute Ansatzpunkte, um statt mit plumper Stichwortsuche wirklich systematisch auf die Suche zu gehen. In einem lobenden Post über Google Squared nimmt anmutunddemut eine Liste von Science-Fiction-Autoren als Beispiel. Sieht man sich den Wikipedia-Artikel über Douglas Adams an, so findet man ihn unter anderem in den Kategorien Autor und Science-Fiction-Literatur. Leider kann man zwar alle Artikel einer Kategorie auflisten lassen, nicht aber jene, die zu beiden gehören. Dabei würde eine einfache UND-Suche nach den Kategorien hier perfekt zum gewünschten Ergebnis führen.

wikipedia-infobox-gemeinde

Noch detailliertere Informationen stehen in den Infoboxen, die standardisiert in viele Wikipedia-Artikel eingebunden werden, z.B. für Filme, Gemeinden oder Software. Theoretisch wäre in diesen Strukturen eine Abfrage wie „Alle Gemeinden im Umkreis von 487 km von Hannover, die eine SPD-Bürgermeisterin haben“ möglich. In verwendbarer Form gibt es das bisher noch nicht.

Extrahiert

Das DBpedia-Projekt ist aber dabei, diesem Ziel näherzukommen:

DBpedia is a community effort to extract structured information from Wikipedia and to make this information available on the Web. DBpedia allows you to ask sophisticated queries against Wikipedia, and to link other data sets on the Web to Wikipedia data.

Es wird durch Auslesen von Kategorien und Infoboxen eine strukturierte Datenbank gewonnen. Dabei werden die häufigsten Infoboxen per Hand auf verschiedene Datenbankmodelle umgesetzt, es sind also bei weitem noch nicht alle Artikel erfasst. Die entstehende Datenbank nimmt dann aber tatsächlich komplexe Anfragen entgegen. Zum Beispiel: People who were born in Berlin before 1900

DBpedia liefert dabei nur die Daten, die Oberfläche, mit der man die Abfragen (noch eher unhandlich in SPARQL) tätigt, ist keinesfalls alltags-, geschweige denn massentauglich. Aber Konzepte für intuitive Oberflächen sind da, wie es z.B. delicious.com mit seinen per „related tags“ zusammenklickbaren Abfragen vormacht.

Das Semantic Web ist ja schon ewig the next big thing, aber die Möglichkeiten, die sich allein durch die beschriebene Erschließung der Wikipedia-Daten ergeben, sind tatsächlich so verlockend, dass sich innerhalb der nächsten Jahre bestimmt viel entwickelt. Und vielleicht kriegt es ja mal jemand hin, Wikipedia wenigstens eine brauchbare UND-Suche nach Kategorien zu verpassen.

http://dbpedia.org/snorql/?query=PREFIX+dbo%3A+%3Chttp%3A%2F%2Fdbpedia.org%2Fontology%2F%3ESELECT+%3Fname+%3Fbirth+%3Fdeath+%3Fperson+WHERE+{%0D%0A+++++%3Fperson+dbpedia2%3AbirthPlace+%3Chttp%3A%2F%2Fdbpedia.org%2Fresource%2FBerlin%3E+.%0D%0A+++++%3Fperson+dbo%3Abirthdate+%3Fbirth+.%0D%0A+++++%3Fperson+foaf%3Aname+%3Fname+.%0D%0A+++++%3Fperson+dbo%3Adeathdate+%3Fdeath%0D%0A+++++FILTER+(%3Fbirth+%3C+%221900-01-01%22^^xsd%3Adate)+.%0D%0A}
Advertisements

Schreibe einen Kommentar so far
Hinterlasse einen Kommentar



Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s