In der Übersicht
Im Bereich der Verarbeitung natürlicher Sprache wurden in den letzten 2-3 Jahren einige bahnbrechende Fortschritte erzielt. Es wurden mehrere neue und leistungsfähigere Ansätze und Modelle für maschinelles Lernen vorgeschlagen. Während des Trainings verarbeiten diese Modelle normalerweise eine sehr grosse Menge unstrukturierter Textdaten, um Kenntnisse über die Merkmale einer Sprache, ihrer Wörter und ihre Sätze zu erlangen.Diese Einarbeitungsphase ist mit modernen Deep-Learning-Modellen sehr rechenintensiv, muss aber nur einmalig pro Sprache durchgeführt werden. Für spezifische Anwendungen kann ein solches vortrainiertes Basismodell dann auf einem viel kleineren Korpus feinjustiert werden, um so domänenspezifisches Wissen zu erlangen. Dieser Ansatz namens Transfer Learning wird allgemein als eine der grossen methodischen Errungenschaften angesehen, die Deep-Learning-Ansätze für Industrieprojekte viel leichter zugänglich macht.
Heutzutage veröffentlichen die meisten Forscher den Quellcode ihrer Modelle wie auch vortrainierte Basismodelle, um die Reproduzierbarkeit zu gewährleisten und um weitergehende Forschung zu erleichtern. Der grösste Teil der aktuellen Forschung wird jedoch mit englischem Text durchgeführt, und daher sind die freigegebenen, vortrainierten Modelle nur für Aufgaben nützlich, die sich mit englischem Text befassen.
Mit einer effizienten Toolchain können wir NLP-Modelle auf dem neuesten Stand der Technik schnell testen und anwenden sowie vorgefertigte deutsche Modelle berechnen. Einige Anwendungen erfordern eine zusätzliche Feinabstimmung eines solchen Modells auf domänenspezifische Texte wie Stellenanzeigen, Lebensläufe oder Berichte aus dem Sozialwesen. Sobald wir hochwertige deutsche Basismodelle berechnet haben, planen wir, diese der Öffentlichkeit zugänglich zu machen, um weitergehende Forschung zu ermöglichen.