Arbeitskreise

Die Arbeitskreise der GSCL dienen als Kommunikations- und Arbeitsplattform für Interessierte aus Wissenschaft und Industrie und sollen Erfahrungsaustausch und Wissenstransfer innerhalb des jeweiligen Forschungsnetzwerks befördern. Arbeitskreise befassen sich gezielt mit einzelnen Schwerpunkten aus dem Themenspektrum der Computerlinguistik und angrenzender Forschungsgebiete. In diesem Zusammenhang werden Arbeitstreffen, Vorträge und Workshops organisiert sowie gemeinsame Publikationen erarbeitet. Und, nicht zuletzt: Viele Studierende haben in diesem Rahmen erstmals "ihr" Projekt einem größeren Fachpublikum vorgestellt und damit ihre ersten Schritte auf dem wissenschaftlichen Podium getan.

Die Mitgliedschaft in den Arbeitskreisen ist für GSCL-Mitglieder gebührenfrei.

Ausbildung und Berufsperspektiven

Leitung: Heike Zinsmeister
heike.zinsmeister@uni-hamburg.de

Der Arbeitskreis befasst sich mit Fragen zu:

  1. Ausbildung und Lehre in der Computerlinguistik und in verwandten Disziplinen mit computerlinguistischen Modulen (z.B. Digital Humanities);
  2. Berufsperspektiven ihrer Absolventen.

Beide Aspekte haben sich in den letzten Jahren durch die Digitalisierung des Alltags, die Verfügbarkeit großer Textmengen und den Einsatz maschineller Lernmethoden verändert.

Grundsätzliche Fragestellungen für das Fach Computerlinguistik und seine Fachdidaktik sind aber gleich geblieben: "Wodurch zeichnet sich gute CL-Lehre aus? Welche Lernräume müssen geschaffen werden, um die Studierenden bestmöglich zu fördern? Wie sollte man CL-Studiengänge organisieren und durchführen? Welche Erwartungen haben Firmen gegenüber CL-Absolventen?" (nach Irene Cramer, ehemalige AK-Leiterin).
Der AK freut sich über weiter Mitarbeiterinnen und Mitarbeiter!

Aktuells:

  1. Im September 2017 findet der durch den AK initiierte Teach4DH Workshop zusammen mit der GSCL-Tagung 2017 statt.

  2. Um die aktuellen Bedingungen im Berufsalltag und die daran geknüpften Erwartungen an Absolventen zu erfassen, plant der Arbeitskreis eine Neuauflage der von der GSCL 2006 (damals noch als GLDV) durchgeführten Firmen-Umfrage. Siehe zum Thema auch den Beitrag von Dr. Nils Lenke im aktuellen GSCL-Newsletter ComputerlinguistInnen bei Nuance: Neue Arbeitsmöglichkeiten in einem sich wandelnden Industriezweig.

ComputerlinguistInnen bei Nuance: Neue Arbeitsmöglichkeiten in einem sich wandelnden Industriezweig.

Dialog Systems

Chair: David Schlangen, Bernhard Schröder
david.schlangen@uni-bielefeld.de, bernhard.schroeder@uni-due.de

Computer Linguistics for Education

Chair: Andrea Horbach, Ramon Ziai
andrea.horbach@uni-due.de, ramon.ziai@uni-tuebingen.de
Website: sites.google.com/view/cl4edu

Motivation
Computerlinguistische Verfahren haben in den letzten Jahren in der Bildung erheblich an Bedeutung gewonnen. Auf internationaler Ebene wird diese Entwicklung durch Workshops wie BEA (Innovative Use of NLP for Building Educational Applications) und NLP4CALL widergespiegelt. Im deutschsprachigen Raum gibt es derzeit keine Workshops oder Arbeitskreise, die diese Thematik adressieren. Thematische Überlappungen gibt es zum DFG-Netzwerk INDUS (Individualisiertes Sprachenlernen), das jedoch 2018 auslaufen wird.

Unser Ziel ist es, eine Plattform für computerlinguistische Forschung bereitzustellen, die Computerlinguistik in den Dienst der Bildung stellt. Unser Arbeitskreis schließt alle Forschungs- und Anwendungsbereiche ein, bei denen Sprache für Lehr- und Lernzwecke automatisch verarbeitet wird. Anknüpfend an den ruhenden AK “Sprach- und texttechnologische Methoden im eLearning” wollen wir Forscher, Lehrende und Industrievertreter im deutschsprachigen Raum zusammenbringen, um ihre Arbeiten zur automatischen Sprachverarbeitung für Bildungszwecke zu diskutieren und Synergien herzustellen.

Thematische Schwerpunkte

  • Automatische Bewertung von sprachlichen Daten: Unterstützung für Lehrende
  • Intelligente Tutorsysteme: Automatisches Feedback für Lerner zu Form und Inhalt
  • Grammatische Fehlererkennung
  • Generierung von Sprach-Übungen
  • Bewertung der Schwierigkeit von Tests und Übungen
  • Aufbereitung von Texten für Lerner
  • Erkennung der Muttersprache bei L2-Texten

Weitere, thematisch verwandte Themen sind jederzeit willkommen.

Hypermedia:

Hypermedia

Chair: Roman Schneider, Bernhard Schröder, Angelika Storrer
schneider@ids-mannheim.de, bernhard.schroeder@uni-due.de, astorrer@mail.uni-mannheim.de
Website : https://grammis.ids-mannheim.de/gscl-ak/index.html

Der Arbeitskreis Hypermedia der beschäftigt sich aus linguistischer, computerlinguistischer und textwissenschaftlicher Sicht mit den Möglichkeiten von Hypermedia. Im Rahmen von Arbeitstreffen, gemeinsamen Projekten und Publikationen behandeln wir folgende Themenschwerpunkte:

  • Hypermedia als Publikationsmedium in geisteswissenschaftlichen Anwendungen und in der Ausbildung
  • Multimediale linguistische Informations- und Lernsysteme, Hypertextualisierung von Grammatiken und Wörterbüchern und die Chancen des neuen Mediums für die Sprachbeschreibung
  • Multimodale Korpora und Annotationen
  • Standards für Hypermedia und Multimedia
  • Hypermediale und XML-affine Datenbanktechnologien
  • Computerlinguistische Werkzeuge (z.B. Lemmatisierungsprogramme, morphologische Analyse, semantische Annotationen) und ihre Integration in Hypermedia-Anwendungen
  • Mobile Systeme und Benutzeradaptivität
  • Interaktive und kollaborative Elemente im Web 2.0 (Wikis, Weblogs etc.)
  • Mediale Aspekte, Web-Design und Usability

Interessenten sind herzlich zur Mitarbeit und zu thematischen Anregungen eingeladen!

Workshop 2017: Desktop oder App - Smarte Zugänge zu hypermedialen Sprachauskunftssystemen

Korpuslinguistik

Chair: Alexander Mehler , Armin Hoenen
Email: Alexander Mehler, Email: Armin Hoenen
Website: gscl-ak-korpuslinguistik.hucompute.org/index.php

Der Arbeitskreis Korpuslinguistik und quantitative Linguistik befasst sich mit der Entwicklung und Erprobung von Werkzeugen zur automatischen Analyse von Korpora sowie mit der Konstruktion und Anwendung mathematischer, quantitativer Modelle der explorativen Korpusanalyse. Der Arbeitskreis thematisiert folgende Fragestellungen:

  • Aufbereitung und Annotation von Korpora.
  • Korpusanalytisch basierte Metrisierung von Eigenschaften und Relationen sprachlicher Einheiten.
  • Extraktion, Rekonstruktion bzw. Exploration sprachlichen Wissens aus Korpora natürlichsprachlicher Texte.
  • Förderung von Anwendungen im Bereich der Textanalyse und Texttechnologie.
  • Unterstützung der linguistischen Theorienbildung.

Maschinelle Übersetzung

Chair: Kurt Eberle, Christina Vertan
k.eberle@lingenio.de, cristina.vertan@uni-hamburg.de
Website: gscl.blogspot.com

Der Arbeitskreis beschäftigt sich mit allen Aspekten der automatischen Übersetzung von der Theorie bis in die Praxis. Ein aktueller Schwerpunkt der Arbeit ist die Integration statistischer und linguistischer Methoden. Des Weiteren beschäftigt sich der AK mit der Evaluierung von automatischen Übersetzungssystemen und Werkzeugen zur computerunterstützten Übersetzung. Ebenso eine Rolle spielen Wörterbuch- und Terminologie-Schnittstellen automatischer Übersetzungssysteme sowie Standards zum Austausch von Datenbeständen zwischen Übersetzungssystemen verschiedener Hersteller.

Morphologie

Chair: Cerstin Mahlow, Michael Piotrowski

Stimmungsanalyse

Chair: Melanie Siegel, Michael Wiegand
melanie.siegel@h-da.de, michael.wiegand@lsv.uni-saarland.de
Website: sites.google.com/site/iggsahome

Der Arbeitskreis Stimmungsanalyse, der auch unter dem Namen "Interest Group for German Sentiment Analysis" (IGGSA) bekannt ist, stellt eine Interessengruppe für Stimmungsanalyse im deutschsprachigen Raum sowohl für Forschung als auch Industrie dar.

Die Stimmungsanalyse beschäftigt sich mit der Extraktion und Klassifikation von meinungstragenden Ausdrücken in (geschriebener und gesprochener) Sprache. Typische Aufgaben sind die Unterscheidung von Meinungen und neutralem Text, die Klassifikation von Meinungen nach ihrer Polarität oder sogar Emotion, sowie die Extraktion der beteiligten Entitäten (d.h. Meinungsträger und Meinungsziel). Gerade im Hinblick auf die sozialen Medien spielt die Stimmungsanalyse eine wichtige Rolle. Die Fülle an meinungstragender Information, die sie beinhalten, stellen einerseits eine wertvolle Informationsquelle für diverse Interessengruppen (z.B. Analysten oder Marketingstrategen) dar; anderseits ist ein gezielter Informationszugriff nur durch computergestützte Anwendungen möglich, die das Knowhow aus der Stimmungsanalyse erfordern.

Das Hauptinteresse dieses Arbeitskreises gilt vor allem der Bereitstellung von Ressourcen (d.h. Lexika und Korpora) für die Verarbeitung deutscher Sprache. Das MLSA-Korpus, ein Referenzkorpus, das Sentimentinformation auf unterschiedlichen Textebenen beinhaltet, ist bereits aus Arbeiten von Mitgliedern der Interessengruppe hervorgegangen.

Social Media / Internetbasierte Kommunikation

Chair: Michael Beisswenger, Torsten Zesch
michael.beisswenger@tu-dortmund.de, torsten.zesch@uni-due.de

Der Arbeitskreis beschäftigt sich mit den linguistischen, sprachtechnologischen und texttechnologischen Grundlagen, die für den Aufbau annotierter Korpora zur Sprachverwendung in sozialen Medien und in der internetbasierten Kommunikation sowie entsprechender Datenanteile in Webkorpora benötigt werden. Zur internetbasierten Kommunikation (engl. auch "computer-mediated communication") werden dabei dialogische Kommunikationsformen gerechnet, die das Internet als Kommunikations-Infrastruktur nutzen - beispielsweise die Kommunikation in Online-Foren, Chats, Instant-Messaging-Anwendungen und via Skype, auf Wiki-Diskussionsseiten, in Kommentar-Threads von Weblogs und Videoplattformen, auf Twitter und auf den Profilseiten sozialer Netzwerke sowie in multimodalen Interaktionsräumen (Lernumgebungen, MMORPGs und "virtuellen Welten").

Zu den Themenfeldern des Arbeitskreises gibt es national und international bereits Initiativen (u.a. im Rahmen der Text Encoding Initiative). An diese schließt der AK an, um gemeinsam mit ForscherInnen aus Linguistik, Computerlinguistik und Sprachtechnologie Lösungen speziell für deutschsprachige Daten zu erarbeiten.

Thematische Schwerpunkte
The working group consolidates topics, projects and discussion lines with computer linguistic, linguistic and textual technological aspects , which were treated within the framework of the DFG Network Empirical Research on Internet-based Communication ( Empirikom) and for the development of methods for the processing and annotation of speech data from social media and from genres of Internet-based communication are of central importance.
Der Arbeitskreis verstetigt Themen, Projekte und Diskussionslinien mit computerlinguistischem, sprach- und texttechnologischem Bezug, die im Rahmen des DFG-Netzwerks Empirische Erforschung internetbasierter Kommunikation (Empirikom) behandelt wurden und die für die Entwicklung von Verfahren für die Verarbeitung und Annotation von Sprachdaten aus sozialen Medien und aus Genres internetbasierter Kommunikation von zentraler Bedeutung sind. Dazu gehören:

  • die Verankerung des Themas "Social Media / Internetbasierte Kommunikation" auf der Agenda nationaler und internationaler Standardisierungsinitiativen im Bereich der Sprach- und Texttechnologie;
  • die Dokumentation von Annotationsrichtlinien, Goldstandards und Ergebnissen aus Projekten zur Anpassung existierender NLP-Verfahren für die automatische linguistische Annotation von Sprachdaten aus sozialen Medien und aus Genres internetbasierter Kommunikation;
  • die Erstellung standardisierter Komponenten für die automatische Verarbeitung von Sprachdaten aus sozialen Medien und aus Genres internetbasierter Kommunikation, u.a. in Kooperation mit den Entwicklerteams von Apache UIMA und des DKPro Frameworks; es ist geplant, die Komponenten im UIMA-Standard zu entwickeln und als Teil von DKPro frei verfügbar zu machen;
  • die Dokumentation von Rechtefragen in Bezug auf die Erhebung, Annotation und Bereitstellung von Sprachdaten aus den behandelten Genres in Korpora und ihrer Nutzung für Zwecke der empirischen Sprachanalyse und im Bereich der Sprachtechnologie;
  • der Aufbau eines Netzwerks von ForscherInnen, die sich im In- und Ausland mit den im AK bearbeiteten Fragestellungen beschäftigen (auf der Grundlage existierender Kontakte und Kooperationen).

Aktivitäten
Geplant sind regelmäßige Workshops zu wechselnden Schwerpunktthemen, der Austausch über eine Mailingliste und einen digitalen Newsletter sowie eine Dokumentation aktueller Projekte und Veranstaltungen mit Bezug zu den Themen des AK auf der GSCL-Website.

  • Workshop des AK im Rahmen der KONVENS 2014: "NLP 4 CMC: Natural Language Processing for Computer-Mediated Communication / Social Media"
    Universität Hildesheim, 6. Oktober 2014
    Website zum Workshop und Call for papers: <https://sites.google.com / site / nlp4cmc />
  • Workshop "Social Media Corpora for the eHumanities: Standards, Challenges, and Perspectives"
    TU Dortmund, 20./21. Februar 2014
    Programm: http://empirikom.net/pub/Aktivitaeten/WebHome/empirikom-7.pdf
    Im Zentrum des Workshops stehen Themen, die in den vergangenen dreieinhalb Jahren Arbeitsschwerpunkte des DFG-Netzwerks "Empirische Erforschung internetbasierter Kommunikation" bildeten: Am Beispiel von Korpusprojekten aus Deutschland, Frankreich, den Niederlanden, Italien und der Schweiz werden Fragen der linguistischen Beschreibung der Sprachverwendung in sozialen Medien sowie korpus- und computerlinguistische Aspekte des Aufbaus, der Annotation und der Verarbeitung von Korpora zur Sprache im Internet und in sozialen Medien thematisiert.

Vernetzung und Kooperationen

  • Der AK nutzt bestehende Kontakte und Kooperationen aus dem DFG-Netzwerk Empirische Erforschung internetbasierter Kommunikation sowie zum Entwicklerteam von Apache UIMA und des DKPro Frameworks.
  • Für den Bereich der Erarbeitung und Standardisierung von Repräsentationsschemata ist eine enge Zusammenarbeit mit der Special Interest Group Computer-Mediated Communication im Rahmen der Text Encoding Initiative (TEI) geplant.
  • Für den Bereich der Anpassung von Tagsets für deutsche Sprachdaten an die Besonderheiten der behandelten Genres kooperiert der AK mit der Arbeitsgruppe zur Überarbeitung des Stuttgart-Tübingen-Tagset (STTS).
  • Existierende Kontakte zu vegleichbaren Netzwerken in anderen europäischen Ländern (z.B. zur französischen Special Interest Group Nouvelles formes de communication (Nouv-com)) und zu Projekten aus dem Netzwerk Building and Annotating Corpora of Computer-Mediated Communication werden im Rahmen des AK weiter ausgebaut. Geplant sind u.a. gemeinsame Workshops, in denen Fragen der Verarbeitung und Annotation von Daten aus sozialen Medien und aus Genres internetbasierter Kommunikation für verschiedene Sprachen diskutiert werden.

Text Technology

Chair: Henning Lobin, Maik Stührenberg
Henning.Lobin@germanistik.uni-giessen.de, maik.stuehrenberg@uni-bielefeld.de

Der AK Texttechnologie befaßt sich vorrangig mit der Integration von Standards der Textstrukturierung (Standard Generalized Markup Language, XML, DSSSL, HyTime) und linguistischer Datenverarbeitung. Ziel ist es, dadurch die Entwicklung innovativer Textmodelle und inhaltsorientierter Textverarbeitung- und nutzung zu ermöglichen.

In den achtziger Jahren ist mit der Standard Generalized Markup Language (SGML) eine Basis für die medienunabhängige Beschreibung von Textstrukturen und Annotationsssystemen entstanden, die in den letzten Jahren zu einer Vielzahl von Anwendungen - HTML ist darunter wohl die bekannteste -, Software-Systemen und abgeleiteten Standard geführt hat. Obwohl aber eine der Wurzeln von SGML in der Linguistik zu finden ist, sind zum Gebiet der maschinellen Sprach- und Textverarbeitung bisher kaum Verbindungen geschaffen worden. Der Arbeitskreis Texttechnologie hat sich zum Ziel gesetzt, die Kopplung von SGML-basierter Informationsverarbeitung, Linguistik und Sprachverarbeitung voranzutreiben, um damit die Entwicklung innovativer Textmodelle und inhaltsorientierer Textverarbeitung und -nutzung zu ermöglichen.

If there is one single aspect that characterizes SGML [...] it is that it puts the computing power of information technology behind the all-encompassing descriptive power of human language. [Liora Alschuler, ABCD ... SGML . 1995, 1]

Im Fahrwasser von SGML sind eine Reihe weiterer Standards entstanden, die für diese Zielsetzung ebenfalls von Bedeutung sind:

  • Die Document Style Semantics and Specification Language (DSSSL) erlaubt es, die Überführung von SGML-Instanzen in beliebige Präsentationsformate einschließlich anderer SGML-Zielformate zu definieren.
  • Die Hypermedia/Time-based Structuring Language (HyTime) stellt eine Konvention dar, wie Verweise in und zwischen Texten sowie zeitliche Abläufe und Synchronisationen in SGML-Instanzen auszudrücken sind.
  • Für die Nutzung von SGML, DSSSL und HyTime im WorldWideWeb sind darüber hinaus vereinfachte Versionen entwickelt worden oder gerade in der Entstehung: die Extensible Markup Language (XML), eine Vereinfachung von SGML, die Extensible Linking Language (XLL), eine Teilmenge von HyTime, sowie die Extensible Style Language (XSL), eine starke Vereinfachung von DSSSL.

Veranstaltungen

  • 4.9.2001: Workshop "Werkzeuge zur automatischen Analyse und Verarbeitung von Texten: Formate, Tools, Software-Systeme" an der Universität Trier
  • 15.3.1999: Arbeitstreffen an der Universität Bielefeld
  • 9.7.1999, Frankfurt: Texttechnologie-Schwerpunkt auf der Jahrestagung der GLDV an der Universität Frankfurt
  • 21.9.1999, Heidelberg: Gemeinsamer Workshop mit den AKs Hypermedia und Lexikographie zum Thema: "SGML/XML-Einsatz in der Lexikographie"