In der Übersicht
Datenbereinigung ist essenziell im maschinellen Lernen, da selbst geringe Verunreinigungen im Datensatz die Modellleistung und Robustheit erheblich beeinträchtigen können. Es konnte gezeigt werden, dass Deep Learning mit grossen Datensätzen auch in Gegenwart von Trainingsdaten mittelmässiger Qualität gut funktioniert. Insbesondere bei sehr grossen Datensätzen und hochdimensionalen Daten ist die manuelle Überprüfung und Sicherstellung der Datenqualität oft kaum machbar. Daher fokussiert sich die Forschung auf das Lernen aus verrauschten Daten, anstatt Qualitätsprobleme zu beheben. Diese etablierte Argumentationslinie ist jedoch stark auf das Training fokussiert. Viele Benchmarks haben Qualitätsprobleme in den Evaluationsdatensätzen, was das Framework zur Messung des wissenschaftlichen Fortschritts untergräbt. Darüber hinaus führen Quasi-Duplikate in Trainings- und Evaluationsdatensätzen zur Überschätzung der Modellperformance. Die Antragsstellenden haben ein selbstüberwachtes Bereinigungsframework für Bilder vorgeschlagen, das in der Community großen Erfolg genießt. In diesem Projekt soll das Paradigma auf den Audiobereich übertragen werden.