Zurück zu

 

DH-Lexikon

Die hier zusammengeführten Begriffserklärungen wurden aus den genannten Quellen überwiegend unverändert übernommen.



A
↑ Index
American Standard Code for Information Interchange (ASCII)

ASCII ist eine 7-Bit Zeichenkodierung. Eine Zeichenkodierung erlaubt die eindeutige Zuordnung von Schriftzeichen (Buchstaben oder Ziffern) und Symbolen innerhalb eines Zeichensatzes. In der Elektronischen Datenverarbeitung werden Zeichen über einen Zahlenwert kodiert und eignen sich damit für Übertragungen oder Speicherungen. Die ASCII-Zeichenkodierung definiert 128 Zeichen, bestehend aus 33 nicht druckbaren und 95 druckbaren Zeichen. Die druckbaren Zeichen umfassen das lateinische Alphabet in Groß- und Kleinschreibung, die zehn arabischen Ziffern sowie einige Satzzeichen. Der Zeichenvorrat entspricht weitgehend dem einer Tastatur oder Schreibmaschine für die englische Sprache. Zum Beispiel gilt im ASCII-Code die Bitfolge 1000001 als „A“, 1100001 als „a“ und die ASCII-Kodierung des Wortes "Uni" lautet: "1010101 1101110 01101001".
[Quelle: http://de.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange; https://de.wikipedia.org/wiki/Zeichenkodierung; https://de.wikipedia.org/wiki/Bin%C3%A4rcode Stand August 2015]

Annotation

Der Vorgang und das Ergebnis der Hinzufügung bestimmter Art von Information (z. B. hinzufügen von Wortarten (POS-Annotation)) zu einem existierenden Text oder Textkorpus.
[Quelle: M.Strube, M.Mieskes, C.Müller; Die automatische Zusammenfassung von gesprochenen Dialogen; Institut für Deutsche Sprache Jahrbuch 2006; Sprachkorpora - Datenmengen und Erkenntnisfortschritt; S. 252]

Auflösung

Unter Bildauflösung versteht man die Bildgröße, d. h. die Breite und Höhe einer Rastergrafik, gemessen in Pixeln (Bildpunkten). Das Auflösungsvermögen einer Datei wird in dpi (dots per inch, Bildpunkte pro inch) gemessen. Dieses Maß gibt Auskunft über die Detailwiedergabe der Datei. Bei der Digitalisierung wird als Untergrenze eine Scanauflösung für die Datei gewählt, bei der die Details einer Vorlage vollständig in einer gleichgroßen Reproduktion wiedergegeben werden können.
[Quelle: 1) http://de.wikipedia.org/wiki/Rastergrafik Stand April 2015; 2) DFG-Praxisregeln "Digitalisierung: http://www.dfg.de/formulare/12_151/index.jsp; Stand Sept. 2014].

Auszeichnungssprache (engl. für markup language)

Eine maschinenlesbare Sprache für die Gliederung und Formatierung von Texten und anderen Daten. Der bekannteste Vertreter ist die Hypertext Markup Language (HTML). Eine Auszeichnungssprache wird zur Beschreibung und zum Teil auch für die Bearbeitung von Daten benötigt. Mit einer Auszeichnungssprache werden unter anderem bestimmte Wörter, Sätze, Elemente bzw. Abschnitte in einem Text mit sogenannten Tags versehen, um ihnen eine Eigenschaft zuzuweisen oder Verweise zwischen einzelnen Sätzen, Wörtern und Elementen zu bilden.
[Quelle: 1) http://de.wikipedia.org/wiki/Auszeichnungssprache Stand April 2015; 2) http://www.extrememarkup.com/web-entwicklung/auszeichnungssprachen/auszeichnungssprache; Stand April 2015]

C
↑ Index
Close Reading

Das Wort für Wort Lesen eines Textes mit dem Ziel, diesen literarisch zu analysieren.
[Quelle: http://www.fas.harvard.edu/~wricntr/documents/CloseReading.html; Stand Juni 2014]

Computerlinguistik

Fachgebiet, das sich mit der maschinellen Verarbeitung natürlicher Sprache beschäftigt. Sie ist im Überschneidungsbereich von Informatik und Linguistik angesiedelt.
[Quelle: K.-U. Carstensen [Hrsg.]; Computerlinguistik und Sprachtechnologie – Eine Einführung (3. Aufl.), 2010]

Copyright

Amerikanische Bezeichnung für Urheberrecht an Werken der Literatur, Tonkunst, bildenden Kunst und Fotographie zur Erlangung des Urheberrechtsschutzes in den USA. Copyright unterliegt bestimmten Formvorschriften, u. a. erforderlich: Vermerk „Copyright” oder das Kennzeichen © mit Jahresangabe der ersten Veröffentlichung und Namen des Berechtigten auf der Titel- und ersten Textseite von Druckschriften sowie Antrag an Register of Copyrights, Copyright Office, Library of Congress, Washington 25, D. C., USA.
[Quelle: Springer Gabler Verlag (Herausgeber), Gabler Wirtschaftslexikon, Stichwort: Copyright, online im Internet: http://wirtschaftslexikon.gabler.de/Archiv/1276/copyright-v6.html; Stand März 2015]

Creative Commons (CC) (engl. für schöpferisches Gemeingut)

Eine gemeinnützige Organisation, die in Form vorgefertigter Lizenzverträge eine Hilfestellung für Urheber zur Freigabe rechtlich geschützter Inhalte anbietet. CC bietet sechs verschiedene Standard-Lizenzverträge an, die bei der Verbreitung kreativer Inhalte genutzt werden können, um die rechtlichen Bedingungen festzulegen. CC ist dabei selber weder als Verwerter noch als Verleger von Inhalten tätig und ist auch nicht Vertragspartner von Urhebern und Rechteinhabern, die ihre Inhalte unter CC-Lizenzverträgen verbreiten wollen. Die CC-Lizenzverträge werden von den Urhebern übernommen und in eigener Verantwortung verwendet – um gegenüber jedermann klarzustellen, was mit den Inhalten ihrer Webseiten geschehen darf und was nicht (darum werden solche an die Allgemeinheit gerichteten Standardlizenzen auch “Jedermannlizenzen” genannt). Durch CC-Lizenzen geben die Inhaber von Urheber- und Leistungsschutzrechten allen Interessierten zusätzliche Freiheiten. Das bedeutet, dass jeder mit einem CC-lizenzierten Inhalt mehr machen darf als das Urheberrechtsgesetz ohnehin schon erlaubt. Welche Freiheiten genau zusätzlich geboten werden, hängt davon ab, welche der sechs CC-Lizenzverträge jeweils zum Einsatz kommt.
[Quelle: http://de.creativecommons.org/was-ist-cc/; https://creativecommons.org/licenses/?lang=de; Stand Sept. 2014]

D
↑ Index
Das Deutsche Textarchiv (DTA)

Ein seit Juli 2007 an der Berlin-Brandenburgischen Akademie der Wissenschaften beheimatetes und von der Deutschen Forschungsgemeinschaft (DFG) gefördertes wissenschaftliches digitales Textarchiv. Das Deutsche Textarchiv hat es sich zur Aufgabe gemacht, eine disziplinübergreifende Auswahl deutschsprachiger Texte des 17. bis 19. Jahrhunderts auf Grundlage von Erstausgaben zu digitalisieren und als linguistisch annotiertes Volltextkorpus im Internet bereitzustellen. Es gibt andere umfangreiche Textsammlungen im Internet wie etwa Google Books, Wikisource oder das Projekt Gutenberg-DE. Das DTA unterscheidet sich von diesen Textsammlungen durch die sorgfältige Auswahl der Texte und Ausgaben, die sehr hohe Erfassungsgenauigkeit, die strukturelle und linguistische Erschließung der Textdaten sowie die Verlässlichkeit der Metadaten.
[Quelle: 1) http://de.wikipedia.org/wiki/Deutsches_Textarchiv; Stand März 2015; 2) http://www.deutschestextarchiv.de/doku/ueberblick; Stand März 2015]

Data Mining

Sammelbegriff für verschiedene rechnergestützte Verfahren, die zur Analyse großer Datenbestände eingesetzt werden. Decker und Focardi definieren Data Mining als eine lösungsorientierte Methode, die eine eventuell komplexe, logische oder mathematische Beschreibung von Mustern und Regularitäten in einer Datenmenge auffindet.
[Quelle: Decker, K.; Focardi, S.: Technology overview: a report on data mining. Swiss Federal Institute of Technology (ETH Zurich) Technical Report CSCS TR-95-02, Zürich, 1995; http://www.enzyklopaedie-der-wirtschaftsinformatik.de/wi-enzyklopaedie/lexikon/daten-wissen/Business-Intelligence/Analytische-Informationssysteme--Methoden-der-/Data-Mining/index.html; Stand Sept. 2014]

Digital Humanities

Ein Forschungsgebiet am Schnittpunkt zwischen angewandter Informatik und den Geistes- und Kulturwissenschaften. In diesem interdisziplinären Kontext werden nicht-triviale computergestützte Methoden und Werkzeuge systematisch erforscht, entwickelt und angewandt, mit deren Hilfe neue geistes- und kulturwissenschaftliche Forschungsfragen gestellt und alte Forschungsfragen neu beantwortet werden können.
[Quelle: DARIAH-DE-Broschüre: http://dx.doi.org/10.3249/webdoc-3589; Stand Sept. 2014]

Digitale Bibliothek

Die Digitale Bibliothek beinhaltet im Gegensatz zur klassischen Bibliothek nicht nur gedruckte Bücher bzw. andere analog gespeicherte und publizierte Dokumente. Sie ist durch die wesentliche Erweiterung um binäre Informationen gekennzeichnet. Im Gegensatz zur klassischen Dokumentation weist sie die Dokumente nicht nur bibliographisch nach, sondern stellt sie auch im Volltext zur Verfügung.
[Quelle: Gisela Ewert, Walther Umstätter; Die Definition der Bibliothek; http://www.ib.hu-berlin.de/~wumsta/pub110.pdf; S. 9; Stand März 2015]

Digitale Edition

In digitaler Form dargebotene Edition. Entscheidend ist die Organisationsstruktur der Daten, die auf Hypertext und Hyperlinks basiert. Digitale Editionen werden nicht durch die Art ihrer Erstellung, sondern durch ihre innere Struktur und ihr Publikationsmedium definiert. Diese unterscheiden sich grundsätzlich von Struktur und Medium gedruckter Werke. Träger-Medium digitaler Editionen können unterschiedliche Speichermedien (Disketten, CD-ROMs, Festplatten, Magnetbänder, etc) sowie Computernetze (z. B. Internet) sein. Das Speicher- und Verbreitungsmedium spielt für die Definition der digitalen Edition keine Rolle. Auch die grundsätzlich digitale Form der Daten ist nur ein notwendiges, kein hinreichendes Kriterium.
[Quelle: Patrick Sahle; Digitale Edition (Historischer Quellen) - Einige Thesen, 1997; http://www.uni-koeln.de/~ahz26/dateien/thesen.htm; Stand Sept. 2014]

Digitale online-Edition

Digitale Edition, deren Speicher- und Verbreitungsmedium das Internet ist, z. B. das Editionsprojekt „Johann Friedrich Blumenbach – online“ http://www.blumenbach-online.de/.
[Quelle: Patrick Sahle; Digitale Edition (Historischer Quellen) - Einige Thesen, 1997; http://www.uni-koeln.de/~ahz26/dateien/thesen.htm; Stand Sept. 2014]

Digitales Objekt

Ein Objekt, das in binärer Kodierung auf einem Datenträger vorliegt. Ein digitales Objekt kann entweder ein Digitales Primärobjekt oder ein Digitalisat sein. Objekt bezeichnet ein kulturelles Artefakt oder ein Mentefakt, das in analoger Form als Analoges Objekt (ein Objekt in der realen Welt) oder in digitaler Form als Digitales Objekt in einer Kultur- bzw. Wissenschaftseinrichtung vorliegt.
[Quelle: Glossar zu den technischen Spezifikationen der Deutschen Digitalen Bibliothek https://www.deutsche-digitale-bibliothek.de/static/de/sc_documents/Anlage_TS_Glossar.pdf; Stand April 2015]

Digitales Primärobjekt

Digitales Objekt, das bereits digital entstanden ist (digital born) und in diesem Sinne nicht die Repräsentation eines Objektes in der realen Welt ist.
[Quelle: Glossar zu den technischen Spezifikationen der Deutschen Digitalen Bibliothek https://www.deutsche-digitale-bibliothek.de/static/de/sc_documents/Anlage_TS_Glossar.pdf; Stand April 2015]

Digitalisat

Digitales Objekt, das durch Digitalisierung eines Objektes in der realen Welt erzeugt wurde.
[Quelle: Glossar zu den technischen Spezifikationen der Deutschen Digitalen Bibliothek https://www.deutsche-digitale-bibliothek.de/static/de/sc_documents/Anlage_TS_Glossar.pdf; Stand April 2015]

Digitalisierung

Die abbildende oder inhaltliche Umwandlung analoger Aufzeichnungen in eine digitale Form – Digitalisat genannt – und ihre Speicherung. Digitalisierung gilt heute als ein zentrales Instrument für die geistes- und kulturwissenschaftliche Forschung und die sich entwickelnden Digital Humanities. Sie umfasst immer die Herstellung digitaler Bilder und die Erzeugung von Metadaten, im Falle von Textwerken gegebenenfalls zusätzlich auch die Volltexterfassung und die Erzeugung von Strukturdaten und Markup. Unter Digitalisierung wird der gesamte Arbeitsgang gemeint (Vorbereitung, Digitalisierung im engeren Sinne, Erzeugung von Metadaten sowie Langzeitsicherung/digitale Bestandserhaltung). Ziel der Digitalisierung ist die möglichst originalgetreue Wiedergabe des Materials nach Maßgabe der wissenschaftlichen Erfordernisse. Die anzuwendenden Parameter für die Digitalisierung sind mit Blick auf die Qualität des Bildes, seine Langzeitverfügbarkeit und Interoperabilität zu wählen.
[Quelle: 1) Archivschule Marburg http://www.archivschule.de/uploads/Forschung/ArchivwissenschaftlicheTerminologie/Terminologie.html; Stand Sept. 2014 2) DFG-Praxisregeln "Digitalisierung" http://www.dfg.de/formulare/12_151/12_151_de.pdf; Stand April 2015]

Distant Reading

Stellt das Gegenstück zum Close Reading dar. Beim Distant Reading werden große Textmengen quantitativ und qualitativ betrachtet. Der Begriff wurde von dem englischen Literaturwissenschaftler Franco Moretti geprägt. Distant Reading bedeutet, Literatur nicht durch Studieren bestimmter Texte zu verstehen, sondern durch Analyse großer Textmengen. Dadurch wird es ermöglicht, einen Text zu analysieren, ohne ihn komplett gelesen zu haben.
[Quelle: Franco Moretti, Distant Reading; http://www.digitalhumanities.tu-darmstadt.de/index.php?id=37; Stand Sept. 2014]

Double Keying

Stellt neben OCR ein Verfahren der Texterfassung dar, bei dem die zur Digitalisierung ausgewählten Texte zweimal manuell (durch Eintippen) erfasst werden. Anschließend werden die Fassungen hinsichtlich eventueller Abweichungen verglichen.
[Quelle: 1) http://www.deutschestextarchiv.de/doku/leitlinien; Stand März 2015; 2) Andrea Rapp, Einige Anmerkungen zu Retrodigitalisierungs-Verfahren und Perspektiven digitaler Briefeditionen; Beihefte zu Edition; Digitale Edition zwischen Experiment und Standardisierung; Herausgegeben von Peter Stadler und Joachim Veit, S. 203]

E
↑ Index
Edition

Wissenschaftlich bearbeiteter Abdruck eines Textes oder auch einer Gruppe von Texten. Im bibliographischen Gebrauch bezeichnet Edition bzw. Ausgabe jedes im Druck erschienene Werk.
[Quelle: K.Grubmüller, K.Weimar in Reallexikon der deutschen Literaturwissenschaft, Hrsg. K.Weimer, Bd. I, Berlin, New York; Walter de Gruyter, 1997; S. 414-418]

F
↑ Index
Faksimile (lat.: fac simile = mach es ähnlich)

Eine mit einem Original (Zeichnung, Druckgrafik, Schrift u. a.) in Größe und Ausführung genau übereinstimmende Nachbildung oder Reproduktion, häufig eines historisch wertvollen Dokumentes. Früher wurde die Nachbildung mit graphischen Drucktechniken erreicht. Heute wendet man meist fotografische Verfahren und moderne Scanverfahren an.
[Quelle: D. Strauch, M. Rehm, Lexikon: Buch, Bibliothek, Neue Medien; zweite aktualisierte und erweiterte Ausgabe; 2007, K.G. Sauer Verlag, München; S. 173]

Fehllesung

Falschlesung, schlechte Lesung, die im Rahmen einer automatischen optischen Zeichenerkennung (OCR) auftreten kann. So kann es z. B. vorkommen, dass ein OCR-System das Wort "veranlaãÿt" generiert, jedoch das korekkte, gedruckte Wort "veranlaßt" sein müsste.
[Quelle: Langenscheidt Fachwörterbuch Technik und angewandte Wissenschaften Englisch-Deutsch]

Functional Requirements for Bibliographic Records (FRBR) (dt. für Funktionale Anforderungen an bibliographische Datensätze)

FRBR ist ein Datenmodell für bibliographische Metadaten, das eine Reihe von grundlegenden Konzepten für die Katalogisierung definiert. Während herkömmliche bibliothekarische Regelwerke sich vor allem auf Details konzentrieren und wesentliche Konzepte wie „Werk“, „Ausgabe“ und „Exemplar“ als gegeben voraussetzen, versucht FRBR genau diese Begriffe zu definieren und in Beziehung zueinander zu setzen.
[Quelle: http://de.wikipedia.org/wiki/Functional_Requirements_for_Bibliographic_Records; Stand August 2015]

G
↑ Index
Google Ngram Viewer

Ein Softwaretool, das mittels Data Mining untersucht, wie häufig in gedruckten Publikationen der letzten fünf Jahrhunderte ausgesuchte Wortfolgen, sogenannte n-grams, gebraucht werden. Der Benutzer kann n-grams nach Belieben eingeben und ihre Gebrauchsfrequenz miteinander vergleichen. Das Programm wird verwendet, um anhand von Sprachgebrauchsfrequenzen Überlegungen über soziale, kulturelle und technische Veränderungen empirisch zu prüfen. Der Google Ngram Viewer stützt sich auf Textkorpora, die im Rahmen des Projektes Google Books entstanden. Sie werden in den Sprachen Deutsch, Englisch, Französisch, Hebräisch, Russisch und Spanisch angeboten und umfassen den Inhalt von 5,2 Millionen Büchern, die in den Jahren 1500-2008 gedruckt wurden. Der Google Ngram Viewer wurde von den Angehörigen der Harvard University Jean-Baptiste Michel und Erez Liebermann Aiden entwickelt und Ende 2010 zuerst veröffentlicht.
[Quelle: http://litre.uni-goettingen.de/index.php/Google_Ngram_Viewer; Stand April 2015]

H
↑ Index
Humanities Computing

Ursprüngliche Bezeichnung der Digital Humanities.
[Quelle: A Companion to Digital Literary Studies, ed. Susan Schreibman and Ray Siemens. Oxford: Blackwell, 2008. http://www.digitalhumanities.org/companionDLS/]]

Hybride Edition (Hybrid-Edition)

Veröffentlichung eines Textes (Edition) in zwei verschiedenen Medien, z. B. Papier und CD/DVD.
[Quelle: Patrick Sahle; Digitale Edition (Historischer Quellen) - Einige Thesen, 1997; http://www.uni-koeln.de/~ahz26/dateien/thesen.htm; Stand Sept. 2014]

Hyperlexikon

Ein Lexikon in Hypertextformat, d. h. ein Grundtext mit Verweisen auf einzelne Einträge, die ihrerseits Verweise (Hyperlinks) auf zusätzliche multimediale Informationen wie Bilder oder Audio- und Video-Clips enthalten.
[Quelle: Carstensen et al. (Hrsg); Computerlinguistik und Sprachtechnologie. Eine Einführung; Spektrum Akademischer Verlag, Heidelberg, 2010; S.516]

Hyperlink

Verweis von einem Hypertext auf einen anderen Hypertext bzw. auf multimediale Elemente. Anders als bei Verweisen in gedruckten Texten muss der Leser die Verweisstelle nicht aktiv suchen, vielmehr wird sie ihm durch einen Mausklick zur Verfügung gestellt. Somit ist es möglich, von Verweis zu Verweis zu navigieren und sich so von der linearen Lesefolge zu lösen.
[Quelle: Reclams Sachlexikon des Buches, Hrsg. Ursula Rautenberg, Philipp Reclam jun.GmbH & Co., Stuttgart, 2003, S. 266]

Hypertext

Eine nicht-lineare Organisationsform zur Darstellung von Wissen und zur Erarbeitung von Informationen. Hypertext beruht auf der Idee der Verknüpfung heterogener, atomisierter Objekte. Im allgemeinen wird unter einem Hypertext eine elektronische textuelle bzw. multimediale Ansammlung verstanden, bei der der Nutzer mit Hilfe von Links nicht zum sequentiellen Lesen gezwungen ist, sondern selektiv und rasch die für ihn interessanten Informationen ansteuern kann.
[Quelle: D. Strauch, M. Rehm, Lexikon: Buch, Bibliothek, Neue Medien; zweite aktualisierte und erweiterte Ausgabe; 2007, K.G. Sauer Verlag, München; S. 220]

I
↑ Index
Image Enhancement (dt. für Bildverbesserung)

Ein Satz von Bildverarbeitungsmethoden, z. B. Kontrastverstärkung bzw. -verminderung, Glättung, Hervorhebung von Konturen, die verwendet werden, um ein Ergebnisbild zu erzielen, das für die Anwendungszwecke besser als das Originalbild ist.
[Quelle: Universität Rostock, Geoinformatik-Service, http://www.geoinformatik.uni-rostock.de/lexikon.asp; Stand Sept. 2014; http://cvpr.uni-muenster.de/teaching/ws07/bildverarbeitungWS07/script/BV03.pdf; Stand Okt. 2014 ]

Index (lat.: Anzeiger)

Bezeichnung für Register und alphabetische Verzeichnisse jeder Art (Namen-, Titel-, Schlagwortverzeichnisse u. ä.) am Ende eines Buches oder als eigener Band.
[Quelle: D. Strauch, M. Rehm, Lexikon: Buch, Bibliothek, Neue Medien; zweite aktualisierte und erweiterte Ausgabe; 2007, K.G. Sauer Verlag, München; S. 224]

Information Retrieval (IR)

Information Retrieval ist ein Forschungsgebiet zur Entwicklung intelligenter Informationssysteme, die mithilfe modellgetriebener Konzepte Informationen verarbeiten und bereitstellen. Informationen liegen in textlicher, auditiver und visueller Form innerhalb unterschiedlicher Medien- und Dokumentformate vor.
[Quelle: Alexander Kümmel, Masterarbeit "Text-Reuse-Extraktion auf Basis eines Sequence-Alignment Problems", S. 6; http://www.uni-weimar.de/medien/webis/teaching/theses/kuemmel_2011.pdf; Stand März 2015]

Informationsvisualisierung

Unter Informationsvisualisierung werden heute alle Konzepte, Methoden und Tools zur visuellen Darstellung von Informationen zusammengefasst. Die Daten können aus Datenbanken, digitalen Bibliotheken oder anderen großen Dokumentsammlungen stammen. Das Ziel der Informationsvisualisierung besteht darin, abstrakte Informationen aus beliebigen, vorrangig textbasierten Informationssystemen, strukturell aufzubereiten und grafisch darzustellen.
[Quelle: 1) B.H. McCormick, T.A. DeFanti, M.D. Brown, Visualization in Scientific Computing, Computer Graphics 21(6), November 1987; 2) R.Däßler und H.Palm; Virtuelle Informationsräume mit VRML; dpunkt Verlag Heidelberg 1998; 3) Rolf Däßler; Fachhochschule Potsdam; Fachbereich Archiv/Bibliothek/Dokumentation; Projektgruppe InfoViz; Informationsvisualisierung Stand, Kritik und Perspektiven http://fiz1.fh-potsdam.de/volltext/fhpotsdam/03021.pdf; Stand März 2015]

K
↑ Index
Keyword-in-Context (KWIC) (dt. für Schlüsselwort im Kontext)

Angabe eines Wortes oder einer Wortsequenz mit linkem und rechtem Kontext. Das Stichwort wird innerhalb der Phrase hervorgehoben, z. B. durch Zentrierung der Stichwörter oder durch Fettdruck.
[Quelle: Carstensen et al. (Hrsg); Computerlinguistik und Sprachtechnologie. Eine Einführung; Spektrum Akademischer Verlag, Heidelberg, 2010; S.568; 2) http://de.wikipedia.org/wiki/Permutiertes_Register; Stand April 2015]

Kollation (Kollationieren)

Vergleich von mehreren voneinander abweichenden Exemplaren eines Textes (i. d. R. Handschriften) mit der Intention, den "Urtext" wiederherzustellen.
[Quelle: http://www.univie.ac.at/strv-klassphil/ > Nützliches > Fachausdrücke; Stand März 2015]

Kollokation

Das habituelle gemeinsame Auftreten von zwei oder mehreren Wörtern. Der Begriff Kollokation geht auf das lateinische collocatio zurück, der auf deutsch Stellung oder Anordnung bedeutet. Franz-Josef Hausmann definiert ihn als "typische, spezifische und charakteristische Zweierkombinationen von Wörtern". Bei dem Versuch einer präziseren Definition des Kollokationsbegriffes stößt man auf die Schwierigkeit, dass der Kollokationsbegriff in der Sprachwissenschaft geteilt ist: Kollokationen werden zum einen auf syntaktisch-semantischer Ebene und zum anderen auf statistischer Ebene untersucht. Kollokationen, die mit Hilfe von statistischen Methoden gefunden werden, umfassen beliebige Wortkombinationen ungeachtet ihrer grammatischen Wohlgeformtheit. Hierbei versteht man unter der Kollokation eines Wortes die Wörter, die signifikant häufig mit diesem Wort in einer gewissen Umgebung - dem Kontext des Wortes - erscheinen. Die Größe der Umgebung kann z. B. auf einen Satz festgelegt werden. Die Kollokationen nach dem syntaktischen Ansatz beschränken sich auf die Kombination bestimmter Wortarten (z. B. Substantiv-Adjektiv-Kollokationen).
[Quelle: Carstensen et al. (Hrsg) Computerlinguistik und Sprachtechnologie. Eine Einführung. Spektrum Akademischer Verlag, Heidelberg, 2010; S. 490; http://wortschatz.uni-leipzig.de/help.html; Stand März 2015]

Konkordanz

Verzeichnis, das die Fundstellen von bestimmten ausgewählten Schlüsselwörtern auflistet und dabei außerdem den Kontext zitiert, innerhalb dessen das Suchwort jeweils erscheint.
[Quelle: Jan Christoph Meister Projekt Computerphilologie. Über Geschichte, Verfahren und Theorie rechnergestützter Literaturwissenschaft http://www1.uni-hamburg.de/DigiLit/meister/computerphilologie_druck.html; Stand Sept. 2014]

Korpus

Sammlung von Texten, Sprachaufnahmen, die nach gewissen wissenschaftlichen Kriterien zusammengestellt werden, z. B. Korpora bestehend aus Gesamtausgaben von literarischen Werken, Kindersprachkorpora, Dialektkorpora.
[Quelle: http://de.wikipedia.org/wiki/Textkorpus; Stand April 2015]

L
↑ Index
Lemma

In der Computerlinguistik versteht man unter einem Lemma die normierte Grundform für alle zu einem Wort gehörenden Wortformen. Beispiel: Hauses und Häuser werden zu Haus lemmatisiert.
[Quelle: Institut für Computerlinguistic, Universität Zürich; http://kitt.cl.uzh.ch/kitt/clglossar/index.php/Lemma_%28Computerlinguistik%29; Stand Sept. 2014]

Lemmatisierer

Morphologische Analyseprogramme, die grammatische Wortformen auf ihre Grundform (Lemma) abbilden.
[Quelle: Claudia Kunze, Lothar Lemnitzer Computerlexikographie Eine Einführung; 2007 Gunter Narr Verlag Tübingen; S. 321]

Lemmatisierung

Im Unterschied zu Stemming wird bei der Lemmatisierung das Wort auf eine in der Sprache vorhandene Grundform zurückgeführt, wie sie in Lexika verwendet wird, das sogenannte Lemma. Im Deutschen wie auch in den meisten anderen Sprachen ist die Lemmatisierung schwierig, da die morphologischen Regeln komplexer sind und es mehr Ausnahmen gibt. Beispiele dafür sind:
• „Studenten“->„Student“ ist richtig, „Enten“->„Ent“ aber nicht.
• „Häuser“->„Haus“: Der Wortstamm selbst verändert sich.
Daher wird normalerweise mit lexikon-basierten Ansätzen anstatt Umschreiberegeln gearbeitet, wie das beim Stemming der Fall ist. Es gibt zwei Varianten solcher Lexika. Bei der ersten besteht das Lexikon aus einer Liste aller möglichen Wortformen der Sprache. So kann in vielen Fällen ohne Anwendung von Regeln der korrekte Stamm zu einer konkreten Wortform einfach nachgeschlagen werden. Es gibt jedoch auch gleiche Wortformen, die aus verschiedenen Stämmen gebildet werden, so dass zusätzliche Hilfsmittel benötigt werden. Der korrekte Stamm von „Buchten“ zum Beispiel kann je nach Kontext „die Bucht“ (am Meer, hier im Plural) oder „buchen“ (Verb) sein. Ein weiterer Nachteil dieses Ansatzes ist, dass das Lexikon sehr umfangreich wird. Die andere Variante ist eine Kombination aus Regeln und einem Lexikon: Die Einträge des Lexikons sind Stammformen mit den zugehörigen Regeln, durch die aus der Stammform die möglichen Formen gebildet werden.
[Quelle: Text Mining:Wissensgewinnung aus natürlichsprachigen Dokumenten; Herausgegeben von Dr. René Witte und Jutta Mülle, S. 3-4 http://digbib.ubka.uni-karlsruhe.de/volltexte/documents/3230; Stand März 2015]

M
↑ Index
Maschinenlesbar (engl. für machine readable)

Die Eigenschaft eines Datenträgers, unmittelbar (d. h. ohne menschliches Zutun) von einer Datenverarbeitungsanlage gelesen werden zu können, z. B. maschinenlesbarer Barcode auf den Waren oder Volltexte.
[Quelle: Fachwörterbuch Benennungen und Definitionen im deutschen Vermessungswesen; http://de.wiktionary.org/wiki/maschinenlesbar; Stand April 2015]

Metadaten

Bezeichnen die digitalen beschreibenden und/oder kontextualisierenden Textinformationen (einschließlich Hyperlinks), die zur Identifizierung, Auffindung, Auslegung und/oder Verwaltung von Objekten dienen können und die gegebenenfalls für deren spätere Suche, Präsentation oder für deren Rechte-Management erforderlich sind. Beispiele für Metadaten sind: inhaltliche Erschließung (Abstract, Annotationen, Schlagworte, Klassifikationen), bibliographische Metadaten (Angaben wie Autor, Titel, Verlagsangaben, Beziehungen zu anderen Ressourcen), technische Metadaten (Angaben wie Umfang und Format der digitalen Ressource), administrative Metadaten (Angaben zum Zugriff auf die digitale Ressource, Identifier, Rechte usw.), Strukturdaten (die die inhaltlichen Strukturen von Dokumenten wie Kapitel, Abschnitt, Paginierung usw. wiedergeben) und Meta-Metadaten (die Informationen zur Entstehung der Metadaten enthalten).
[Quelle: Glossar zu den technischen Spezifikationen der Deutschen Digitalen Bibliothek https://www.deutsche-digitale-bibliothek.de/static/de/sc_documents/Anlage_TS_Glossar.pdf; Stand April 2015]

N
↑ Index
N-Gram

N-Gramme sind das Ergebnis der Zerlegung eines Textes in Fragmente. Der Text wird dabei zerlegt und jeweils n Fragmente als N-Gramm zusammengefasst. n entspricht der Anzahl der Wörter. Die Fragmente können Buchstaben, Phoneme, Wörter und ähnliches sein. Beispiele von 3-Grammen auf Wortebene: ceramics collectables collectibles, ceramics collectables fine, ceramics collected by.
[Quelle: 1) http://de.wikipedia.org/wiki/N-Gramm; Stand März 2015; 2) http://googlebooks.byu.edu/# Stand Juli 2015]

Named Entities Recognition (NER) (dt. für Eigennamenerkennung)

Unter Eigennamen versteht man in der Regel sprachliche Ausdrücke, die auf Individuen von Klassen oder Typen bestimmter Entitäten referenzieren, wie z. B. Personen-, Firmen-, Produktnamen. Das zugrundeliegende Prinzip der automatischen Eigennamenerkennung ist die Annotation eines Textes mit Tags, die jeden Eigennamen markieren. Der Ausgangstext: "Jürgen kaufte 2006 300 Aktien der Firma Bosch" wird z. B. nach der Annotation zu: "<Person>Jürgen</Person> kaufte 2006 300 Aktien der <Organisation>Firma Bosch</Organisation>.
[Quelle: Carstensen et al. (Hrsg); Computerlinguistik und Sprachtechnologie. Eine Einführung; Spektrum Akademischer Verlag, Heidelberg, 2010; S.596; https://en.wikipedia.org/wiki/Named-entity_recognition Stand August 2015]

O
↑ Index
Ontologie

Der wohl bekannteste Definitionsversuch des Begriffes Ontologie stammt von T. Gruber. Dieser bezeichnet Ontologie als „explizite formale Spezifikation einer gemeinsamen Konzeptualisierung (orig.: "shared conceptualization"). In diesem Sinne beschreibt eine Ontologie also einen Wissensbereich (knowledge domain) mit Hilfe einer standardisierenden Terminologie sowie Beziehungen und ggf. Ableitungsregeln zwischen den dort definierten Begriffen. Gruninger und Lee unterscheiden drei Anwendungsfelder: Kommunikation, automatisches Schließen und Repräsentation sowie Wiederverwendung von Wissen. Sollen zwei Programme (z. B. Web-Suchmaschinen oder Software-Agenten) miteinander kommunizieren, so müssen sie entweder selbst die Interpretationsvorschrift für die Daten in sich tragen (sind also datenabhängig), oder aber sie liefern diese in Form von Metadaten aus einer beiden Seiten zugänglichen Ontologie mit. Beim automatischen Schließen können Programme logische Schlüsse schon aufgrund der per Ontologie bekannten Ableitungsregeln ziehen - diese müssen also nicht stets von neuem übermittelt werden.
[Quelle: https://www.gi.de/service/informatiklexikon/detailansicht/article/ontologien.html; Stand März 2015]

Open Access

Ein Publikationsmodell, das wissenschaftliche Inhalte über das Internet frei zur Verfügung stellt. Der Zugang zu den Veröffentlichungen unterliegt keinen finanziellen, rechtlichen oder technischen Beschränkungen. Mit der "Berliner Erklärung" vom Oktober 2003 über den offenen Zugang zu wissenschaftlichem Wissen unterstützen u. a. die Fraunhofer-Gesellschaft, der Wissenschaftsrat, die Hochschulrektorenkonferenz, die Max-Planck-Gesellschaft, die Wissenschaftsgemeinschaft Gottfried Wilhelm Leibniz, die Helmholtz-Gemeinschaft und die DFG den Gedanken des Open Access.
[Quelle: D. Strauch, M. Rehm, Lexikon: Buch, Bibliothek, Neue Medien; zweite aktualisierte und erweiterte Ausgabe; 2007, K.G. Sauer Verlag, München; S. 327]

Optical Character Recognition (OCR) (dt. für optische Zeichenerkennung)

Bezeichnet das rechnergestützte Erkennen von Zeichen. Eine entsprechende OCR-Software wandelt über einen Scanner eingelesene, bereits in einem Grafikformat (z. B. PDF) vorliegende handschriftliche/maschinengeschriebene Zeichen oder Strichmarkierungen (Barcodes) in Dateien im ASCII-Format um, welche mit Textverarbeitungssoftware weiter bearbeitet werden können.
[Quelle: 1) D. Strauch, M. Rehm, Lexikon: Buch, Bibliothek, Neue Medien; zweite aktualisierte und erweiterte Ausgabe; 2007, K.G. Sauer Verlag, München; S. 323; 2) Archivschule Marburg http://www.archivschule.de/uploads/Forschung/ArchivwissenschaftlicheTerminologie/Terminologie.html; Stand Sept. 2014]

P
↑ Index
Parsing

Der Ausdruck Parsing leitet sich aus dem lateinischen partes orationis her, dem Teilen der Rede (d. h. den Wortarten). Im weitesten Sinne umfasst Parsing alle Formen der (automatischen) Analyse sprachlicher Ausdrücke. Gerade für den ursprünglichen Sinn (grammatische Analyse als Feststellung der Wortarten) hat sich in den vergangenen Jahren der Begriff Tagging (Wortarten-Tagging, POS) etabliert. Unter Parsing versteht man heute solche Analyseprozesse, die substantiell über das bloße Annotieren eines Textes mit Wortarten hinausgehen und die die grammatische Struktur einer Äußerung aufdecken. Die Grenzen sind jedoch inzwischen fließend, so wird der Begriff Tagging z. B. auch für die Annotation von Texten mit syntaktischen Funktionen wie Subjekt und Objekt verwendet.
[Quelle: Carstensen et al. (Hrsg); Computerlinguistik und Sprachtechnologie. Eine Einführung; Spektrum Akademischer Verlag, Heidelberg, 2010; S.303]

Part-Of-Speech Tagger

Software-Tool zur automatischen Durchführung von POS-Tagging, z. B. der Stanford-NLP-Tagger.
[Quelle: http://nlp.stanford.edu/software/tagger.shtml; Stand Okt. 2014]

Part-Of-Speech Tagging (POS) (dt. für Wortart-Tagging)

Den Vorgang der Anreicherung/Annotation der Daten mit Wortarten. Beim Tagging wird ein sogenanntes Tagset (z. B. das Stuttgart-Tübingen-Tagsset) definiert, ein Set von Wortarten, wobei auch Tags für die Interpunktion oder Zahlen vorgesehen sein müssen. Ein solches Tagset kann sich an einem einfachen Wortartenmodell orientieren, oft ist es aber auf die speziellen Bedürfnisse und Möglichkeiten der maschinellen Analyse angepasst und entsprechend erweitert.
Beispielsatz: "Hey Paul! Would you give me the hammer?"
Beispiel für eine POS-Annotation mit dem Stanford-NLP-Tagger:
<pos>
  <sentence id="0">
      <word wid="0" pos="NNP">Hey </word>
      <word wid="1" pos="NNP"> Paul </word>
      <word wid="2" pos="."> ! </word>
  </sentence>
  <sentence id="1">
      <word wid="0" pos="MD"> Would </word>
      <word wid="1" pos="PRP"> you </word>
      <word wid="2" pos="VB"> give </word>
      <word wid="3" pos="PRP"> me </word>
      <word wid="4" pos="DT"> the </word>
      <word wid="5" pos="NN"> hammer </word>
      <word wid="6" pos="."> ? </word>
  </sentence>
</pos
[Quelle: 1) M.Strube,M.Mieskes, C.Müller; Die automatische Zusammenfassung von gesprochenen Dialogen; Institut für Deutsche Sprache Jahrbuch 2006; Sprachkorpora - Datenmengen und Erkenntnisfortschritt; S.253; 2) Bubenhofer, Noah (2006-2011): Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge. Elektronische Ressource: http://www.bubenhofer.com/korpuslinguistik/; Stand Okt. 2014; 3) http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/TagSets/stts-table.html; Stand Okt. 2014; 4) http://www.maik-stuehrenberg.de/files/Stuehrenberg-Kolloquium2012.pdf; Stand Okt. 2014]

Plain Text (engl. für einfacher, schlichter Text)

Daten, die direkt unter Verwendung einer Zeichenkodierung in Text umgesetzt werden können. Dieser Text stellt die eigentliche Information dar, das heißt zur Interpretation der Daten ist keine Kenntnis und Auswertung einer speziellen Notation nötig – wie beispielsweise im Fall von XML. Der Begriff „plain text“ schließt weitergehende Formate und Standards aus, etwa .doc oder HTML.
[Quelle: http://de.wikipedia.org/wiki/Plain_text; Stand Okt. 2014]

R
↑ Index
Rastergrafik

Rastergraphik, auch Pixelgrafik genannt, ist eine Form der Beschreibung eines Bildes in Form von computerlesbaren Daten. Rastergrafiken bestehen aus einer rasterförmigen Anordnung von so genannten Pixeln (Bildpunkten), denen jeweils eine Farbe zugeordnet ist.
[Quelle: http://de.wikipedia.org/wiki/Rastergrafik; Stand April 2015]

S
↑ Index
Semantic Web

Die Bezeichnung "Semantic Web" geht auf einen Artikel zurück, der 2001 im Scientific American erschienen ist. Die zugrunde liegende Idee ist, dass intelligente Software-Agenten in der Lage sein sollen, im Netz vorhandene Informationen zu verstehen oder zumindest korrekt zu interpretieren. Dafür sollte die intendierte Bedeutung von Informationen auf entsprechenden Webseiten mit Hilfe spezialisierter XML-basierter Auszeichnungssprachen in maschinenlesbarer Form zur Verfügung gestellt werden. Dadurch können bessere Suchanfragen gestellt werden, z. B. "Wer war der erste Präsident der USA"?
[Quelle:Berners-Lee, Tim; Hendler, James; Lassila, Ora, The Semantic Web. Scientific American, May2001, Vol. 284 Issue 5, p34; http://www.enzyklopaedie-der-wirtschaftsinformatik.de/wi-enzyklopaedie/lexikon/technologien-methoden/Rechnernetz/Semantic-Web/index.html; Stand Sept. 2014]

Stemming

Bezeichnet das Zurückführen eines Wortes auf seinen Wortstamm. Der Begriff „Wortstamm“ ist hier rein formal definiert, der beim Stemming entstehende Term muss kein tatsächliches Wort der Sprache sein. Wie der erzeugte Wortstamm konkret aussieht, hängt vom eingesetzten Algorithmus ab. Denkbar wäre zum Beispiel eine Reduzierung von „lachte“ auf „lach“. Einer der bekanntesten Stemmer für Englisch ist der Porter Stemmer, den Martin F. Porter 1980 erstmals vorstellte. Er basiert auf kaskadierten, d. h. hintereinander ausgeführten Umschreiberegeln, zum Beispiel:
• ATIONAL-> ATE (Beispiel: „relational“-> „relate“)
• ING -> ɛ (das leere Wort), wenn der Stamm einen Vokal enthält (Beispiel: „motoring“ -> „motor“).
[Quelle: Text Mining:Wissensgewinnung aus natürlichsprachigen Dokumenten; Herausgegeben von Dr. René Witte und Jutta Mülle, S. 3 http://digbib.ubka.uni-karlsruhe.de/volltexte/documents/3230; Stand März 2015]

Stilometrie

Untersuchung des Sprachstils mittels statistischer Mittel, z. B. die Analyse der Häufigkeiten von Wörtern innerhalb eines Textes. Das Ziel der Stilometrie ist, Autoren, Gattungen, Werke und Epochen zu charakterisieren oder anonyme Autoren zu identifizieren.
[Quelle: http://www.digitalhumanities.tu-darmstadt.de/index.php?id=37; Stand Sept. 2014]

T
↑ Index
Tag (dt. Etikett, Kennzeichen, Markierung)

Eine Auszeichnung eines Datenbestandes mit zusätzlichen Informationen. In Auszeichnungssprachen wie SGML, XML oder HTML bezeichnen Tags die in spitzen Klammern eingeschlossenen Kürzel, die beispielsweise in HTML dazu dienen, Textelemente auszuzeichnen, oder in XML dazu, Daten zu klassifizieren und strukturieren. Dabei kommen sogenannte öffnende und schließende Tags zum Einsatz. Letztere sind durch einen führenden Schrägstrich gekennzeichnet. Tags können als benannte Klammern aufgefasst werden. In der HTML-Syntax bedeutet zum Beispiel die Auszeichnung <p>Text</p>, dass der so gefasste Text als eigener Absatz markiert wird. In der Auszeichnungssprache XML könnte beispielsweise eine Auszeichnung wie folgt aussehen: <Name>Mustermann</Name>
[Quelle: http://de.wikipedia.org/wiki/Tag_%28Informatik%29; Stand März 2015]

TEI (engl. für Text Encoding Initiative)

Die TEI ist eine Initiative der Wissenschaft für die Wissenschaft. Die TEI Guidelines beschreiben ein Standardformat für den Datenaustausch und stellen eine Hilfestellung für das Codieren von Texten in diesem Format dar. Sie decken alle textuellen Merkmale aller Textsorten ab, die von Wissenschaftlern untersucht werden, sind softwareunabhängig, ermöglichen benutzerdefinierte Erweiterungen und sind konform zu aktuellen und zukünftigen Standards. Das Codierungsschema TEI oder die Auszeichnungssprache TEI ist eine durch TEI definierte Menge von (XML-)Elementen. Sie besteht aus diversen Modulen, die alle eine bestimmte Anzahl von XML- Elementen und Attributen deklarieren, z. B. die Module Prosa, Drama, Dichtung. Die Elemente können zu einer oder mehreren Klassen gehören. Abhängig von diesen Klassen werden der Inhalt (Content) und die Attribute der Elemente definiert. Die minimale Struktur eines TEI-Dokumentes besteht aus dem Wurzelelement <TEI> und aus den weiteren TEI-Elementen <teiHeader> und <text>.
Beispiel TEI-Dokument:
<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0" xml:lang="en">
    <teiHeader>
        <fileDesc>
            <titleStmt>
                 <title>Title</title>
           </titleStmt>
           <publicationStmt>
                 <p>Publication information</p>
           </publicationStmt>
           <sourceDesc>
                 <p>created on Thursday 24th July 2008 10:20:17 AM by the form at http://www.tei-c.org/Roma/</p>
           </sourceDesc>
       </fileDesc>
   </teiHeader>
   <text>
       <body>
           <p>Some text here</p>
       </body>
   </text>
</TEI>
 [Quelle: 1) Peter Stadler; Einführung in die Text Encoding Initiative (TEI); Edirom-Summerschool; 27.–29. September 2010 http://www.edirom.de/uploads/media/Folien_TEI.pdf; Stand März 2015; 2) http://www.tei-c.org; 3) http://www.teibyexample.org/modules/TBED00v00.htm?target=teigroundrules ] 

Text-Reuse

Text-Reuse umfasst die Wiederverwendung von Texten in neuen Texten mit dem Ziel, die vorhandene Information zu erhalten und weiterzugeben. Text-Reuse ist ein Oberbegriff für eine Reihe von Texttransformationen, die unter dieser Prämisse funktionieren. Generell ordnen sich hier die unterschiedlichen Kommentier- und Berichtsformen ein, sowie die bekannten Zitiermöglichkeiten und -vorgaben. Ausgeprägtere Formen von Text-Reuse erwachsen aus der Modifikation von Texten bezogen auf ihre Ansprache, das Medium und die Klientel der Betrachter. Dabei wird der Inhalt weitgehend auf eine bestimmte Verwendung angepasst, wobei die Kernaussagen erhalten bleiben. Diese Form des Text-Reuse ist als Paraphrasieren bekannt. Beispiele für Text-Reuse sind unter anderem die Bereiche Marketing und Journalismus. Hier werden die Texte zur zielgruppengerechten Präsentation umformuliert. Vor allem die Texte in Zeitungen und Online-Medien sind geprägt von Text-Reuse. Unter die praktische Verwendung von Text-Reuse fallen auch Patente, Gesetzestexte und unterschiedliche Formen von Anleitungen.
[Quelle: Alexander Kümmel, Masterarbeit "Text-Reuse-Extraktion auf Basis eines Sequence-Alignment Problems", S.12 
http://www.uni-weimar.de/medien/webis/teaching/theses/kuemmel_2011.pdf; Stand März 2015]

Token

Eine von Leerzeichen (das umfasst Tabulatorzeichen und Zeilenumbrüche) oder Interpunktion begrenzte Folge von Buchstaben oder Ziffern. Zum Beispiel sind die Token im folgenden Satz: "Peter J. O’Neill’s house in San Francisco sold after a nine-month period."-> “Peter” “J.” “O’Neill” “’s” “house” “in” “San” “Francisco” “sold” “after” “a” “nine” “-” “month” “period” “.”
[Quelle: 1) Evert, Stefan & Fitschen, Arne (2001) Textkorpora. In: Carstensen et al. (Hrsg) Computerlinguistik und Sprachtechnologie. Eine Einführung. Spektrum Akademischer Verlag, Heidelberg, 369 – 376, S.371; 2) Einführung Computerlinguistik, Morphologie I, Hinrich Schütze & Robert Zangenfeind, Centrum für Informations- und Sprachverarbeitung, LMU München; http://www.cis.uni-muenchen.de/~hs/teach/13w/intro/pdf/04morph.flat.pdf; S. 38; Stand März 2015 ]

Tokenisierung

Tokenisierung bezeichnet in der Computerlinguistik die Segmentierung eines Textes in Einheiten der Wortebene (manchmal auch Sätze, Absätze o. Ä.). Die Tokenisierung des Textes ist Voraussetzung für dessen Weiterverarbeitung, beispielsweise zur syntaktischen Analyse durch Parser, im Textmining oder Information Retrieval.
[Quelle: https://de.wikipedia.org/wiki/Tokenisierung; Stand August 2015]

Transkription

Die Wiedergabe eines Textes, wie er in einem materiellen Dokument vorgefunden wird. Ziel der Transkription ist es, einen identischen Text herzustellen, eine objektive Wiedergabe bzw. eine genaue Repräsentation.
[Quelle: Patrick Sahle, Digitale Editionsformen, Teil 3: Textbegriffe und Recodierung]

Type

Eine Klasse von Tokens, die von ihren Sprechern und Hörern (bzw. ihren Autoren und Lesern) nicht unterschieden werden und daher als gleich wahrgenommen werden, z. B. als Kopien. Zum Beispiel enthält der Satz: "Eine Rose ist eine Rose und viele Rosen ergeben einen Strauß” 11 Token und 9 Types.
[Quelle: 1) Carstensen et al. (Hrsg); Computerlinguistik und Sprachtechnologie. Eine Einführung; Spektrum Akademischer Verlag, Heidelberg, 2010; S.520; 2)  Hinrich Schütze, Robert Zangenfeind; Centrum für Informations- und Sprachverarbeitung, LMU München; Einführung Computerlinguistik, Allgemeines zur Linguistik http://www.cis.uni-muenchen.de/~hs/teach/13w/intro/pdf/02allgemein.pdf; Stand März 2015]

Type-Token-Verhältnis (TTR) (engl. für type-token ratio

Formal ist das Type-Token-Verhältnis definiert als der Quotient aus der Anzahl aller Worttypes und der Anzahl aller Worttokens in einem Korpus. Je nach Erkenntnisinteresse können die Worttypes hierbei auf der Ebene von Wortformen oder von Lexemen unterschieden werden. Will man TTR-Werte aus verschiedenen Studien miteinander vergleichen, so sollten beide für dieselbe linguistische Ebene (Wortform vs. Lexem) berechnet sein. Typischerweise wird das Type-Token-Verhältnis in Prozent angegeben. Da die Anzahl Types natürlich nicht größer sein kann als die Anzahl Tokens, ist ein TTR-Wert immer eine Zahl zwischen 0 und 100%. Das Type-Token-Verhältnis gibt an, mit welcher Rate die Tokens im Korpus zu unterschiedlichen Types gehören. Anders ausgedrückt: Das Type-Token-Verhältnis ist der Anteil der verschiedenen Tokens an allen Token. Ein größerer TTR-Wert deutet auf einen differenzierteren und reichhaltigeren Wortschatz hin, ein niedrigerer TTR-Wert hingegen auf ein größeres Maß an Wiederholung und auf eine formelhaftere Sprachverwendung.
[Quelle: Rainer Perkuhn, Holger Keibel, Marc Kupietz; Ergänzungen zu Korpuslinguistik; (Reihe LIBAC – Linguistik für Bachelor 3433); 
http://corpora.ids-mannheim.de/libac/doc/libac-addOn-LexikalVielfalt.pdf
; Stand März 2015]

U
↑ Index
Unicode

Von der ISO entwickelter und normierter Zeichensatz für jedes sinntragende Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme (ISO 10646). Da im Internet der Zugriff auf Webseiten bzw. Dokumente aus anderen Ländern und verschiedenen Sprachen alltäglich ist, der Webbrowser aber den länderspezifischen Zeichensatz des Dokuments nicht kennt, kann der Text falsch dargestellt werden. Um diesem Problem zu begegnen, wurde Unicode entwickelt. Systeme, welche den Unicode benutzen, können alle Dokumente darstellen, ohne dass der Zeichensatz gewechselt werden muss.
[Quelle: 1) D. Strauch, M. Rehm, Lexikon: Buch, Bibliothek, Neue Medien; zweite aktualisierte und erweiterte Ausgabe; 2007, K.G. Sauer Verlag, München; S. 430;  2) http://de.wikipedia.org/wiki/Unicode; Stand Okt. 2014]

Urheberrecht

Das Urheberrecht schützt den Urheber durch das Urheberpersönlichkeitsrecht und durch die Zuordnung von vermögensrechtlichen Verwertungsrechten in seinen geistigen, persönlichen und vermögensrechtlichen Beziehungen zu seinem Werk, dessen Rechtsschutz mit seiner Entstehung beginnt und im Unterschied zu den gewerblichen Schutzrechten keiner Hinterlegung oder Registrierung bedarf. Als dem Urheberrecht zugängliche Werkarten nennt das UrhG Sprachwerke (Reden, Schriftwerke und Computerprogramme), Werke der Musik, pantomimische Werke und Werke der Tanzkunst, Werke der bildenden und angewandten Kunst, Bauwerke, Lichtbildwerke, Filmwerke sowie Darstellungen wissenschaftlicher und technischer Art (Zeichnungen, Pläne, Karten, Skizzen, Tabellen, plastische Darstellungen).
[Quelle: Springer Gabler Verlag (Herausgeber), Gabler Wirtschaftslexikon, Stichwort: Urheberrecht, online im Internet: http://wirtschaftslexikon.gabler.de/Archiv/1115/urheberrecht-v11.html; Stand März 2015]

V
↑ Index
Vektorgrafik

Eine Vektorgrafik ist eine Computergrafik, die aus grafischen Primitiven wie Linien, Kreisen, Polygonen oder allgemeinen Kurven (Splines) zusammengesetzt ist. Meist sind mit Vektorgrafiken Darstellungen gemeint, deren Primitiven sich zweidimensional in der Ebene beschreiben lassen. Vektorgrafiken basieren, anders als Rastergrafiken, nicht auf einem Pixelraster, in dem jedem Bildpunkt ein Farbwert zugeordnet ist, sondern auf einer Bildbeschreibung, die die Objekte, aus denen das Bild aufgebaut ist, exakt definiert. So kann beispielsweise ein Kreis in einer Vektorgrafik über Lage des Mittelpunktes, Radius, Linienstärke und Farbe vollständig beschrieben werden; nur diese Parameter werden gespeichert. Im Vergleich zu Rastergrafiken lassen sich Vektorgrafiken daher oft mit deutlich geringerem Platzbedarf speichern. Außerdem lässt sich die Größe einer Vektorgraphik leicht ändern, ohne Artefakte zu erhalten, da das Objekt selbt geändert wird. Bei einer Rastergrafik muss bei einer Vergrößerung fehlende Information generiert werden, was meist zu pixeligen Bildern führt.
[Quelle: https://de.wikipedia.org/wiki/Vektorgrafik; Stand August 2015]

Virtuelle Forschungsumgebung (engl. für virtual research environment (VRE))

Eine Arbeitsplattform, die kooperative Forschungstätigkeiten durch mehrere Wissenschaftler an unterschiedlichen Orten zu gleicher Zeit ermöglicht. Inhaltlich unterstützt sie potentiell den gesamten Forschungsprozess, von der Erhebung, der Diskussion und weiteren Bearbeitung der Daten bis zur Publikation der Ergebnisse, während sie technologisch vor allem auf Softwarediensten und Kommunikationsnetzwerken basiert und Zugang zu realen Forschungsressourcen, wie z. B. Daten, Analyse- und Bearbeitungswerkzeuge, wissenschaftliche Geräte und Diensten gewährt.
[Quelle: Alianz der deutschen Wissenschaftsorganisationen, http://www.allianzinitiative.de/handlungsfelder/virtuelle-forschungsumgebung.html; Stand Sept. 2014]

Visual Analytics

Die Vision von Visual Analytics ist, die Informationüberlast handhabbar zu machen. Ihr Ziel ist die Verarbeitung von Daten und Informationen überschaubarer zu machen, indem Methoden der Mensch-Computer-Interaktion, Data Mining und Visualisierung zum Einsatz kommen.
[Quelle: Mastering the Information Age; Solving Problems with Visual Analytics; Edited by Daniel Keim, Jörn Kohlhammer, Geoffrey Ellis and Florian Mansmann; electronic version; S.2]

Visualisierung

Ist eine Berechnungsmethode, welche Symbole in Geometrie transformiert und es dadurch den Forschern ermöglicht, ihre Simulationen und Berechnungen zu analysiern. Visualisierung stellt eine Methode dar, um das Unsichtbare sichtbar zu machen. Sie bereichert den Prozess des wissenschaftlichen Entdeckens und fördert tiefe und unerwartete Erkenntnisse. Visualisierung ist ein Werkzeug sowohl für die Auswertung der im Computer eingegebenen Daten als auch für die Bilderzeugung aus komplexen mehrdimensionalen Datensätzen. Man kann dabei zwischen wissenschaftlicher Visualisierung und Informationsvisualisierung unterscheiden.
[Quelle: 1) B.H. McCormick, T.A. DeFanti, M.D. Brown, Visualization in Scientific Computing, Computer Graphics 21(6), November 1987; 2) R.Däßler und H.Palm; Virtuelle Informationsräume mit VRML; dpunkt Verlag Heidelberg 1998; 3) Rolf Däßler; Fachhochschule Potsdam; Fachbereich Archiv/Bibliothek/Dokumentation; Projektgruppe InfoViz; Informationsvisualisierung Stand, Kritik und Perspektiven http://fiz1.fh-potsdam.de/volltext/fhpotsdam/03021.pdf; Stand März 2015]

W
↑ Index
World Wide Web Consortium (W3C)

Eine international anerkannte Institution, die sich seit 1994 mit der Schaffung von Standards für Web-Technologien für das Internet befasst. Auf das W3C geht beispielsweise die Normung von Auszeichnungssprachen wie HTML oder XML oder die Normung von Style Sheets (z. B. Cascading Style Sheets) zurück.
[Quelle: D. Strauch, M. Rehm, Lexikon: Buch, Bibliothek, Neue Medien; zweite aktualisierte und erweiterte Ausgabe; 2007, K.G. Sauer Verlag, München; S. 451]

X
↑ Index
XML (Abk. für engl.: eXtensible Markup Language) (dt. erweiterbare Auszeichnungssprache)

Eine Auszeichnungssprache zur Darstellung hierarchisch strukturierter Daten in Form von Textdateien. XML wird u. a. für den plattform- und implementationsunabhängigen Austausch von Daten zwischen Computersystemen eingesetzt, insbesondere über das Internet. Die wichtigste Struktureinheit einer XML-Anwendung ist das Element. Der Name eines XML-Elements kann weitgehend frei gewählt werden.
Beispiel einer XML-Datei:
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<verzeichnis>
     <titel>Wikipedia Städteverzeichnis</titel>
     <eintrag>
          <stichwort>Genf</stichwort>
          <eintragstext>Genf ist der Sitz von ...</eintragstext>
     </eintrag>
     <eintrag>
          <stichwort>Köln</stichwort>
          <eintragstext>Köln ist eine Stadt, die ...</eintragstext>
     </eintrag>
</verzeichnis>
[Quelle: http://de.wikipedia.org/wiki/Extensible_Markup_Language; Stand April 2015]