Intention-Based
Interface
Unsere Forschungsfrage: Lassen sich Menüstrukturen und Tastenkombinationen durch reine Absicht — semantisch erfasst, KI-vermittelt, lokal ausgeführt — ersetzen, und in welchem Umfang ist diese Substitution belastbar?
Forschungsmatrix
Chat-Eingabe, KI-Vision und Spracheingabe — drei Modalitäten, die wir parallel und in unterschiedlichen Reifegraden untersuchen.
Chat Mode
Das Gehirn
Textbasierter Dialog zwischen Anwender und DAW. Forschungsfrage: Wie reliabel lässt sich musikalische Intention aus freier deutscher Sprache extrahieren — und welche systematischen Grenzen hat dieses Vorgehen bei domänenspezifischer Terminologie?
AI Vision
Die Augen
Screenshot-Analyse, OCR und KI-gestützte Bilderkennung als methodischer Ansatz, um UI-Elemente jenseits offizieller Schnittstellen adressierbar zu machen. Funktioniert die Drei-Tier-Grounding-Kaskade — Accessibility-API → OCR-BBox → Vision-Language-Modell — verlässlich genug für den produktiven Einsatz? Eine offene Frage.
Voice Control
Die Stimme
Sprach-zu-Text-Steuerung als mögliche Erweiterung der Eingabemodalität. Ob und wann diese Modalität sinnvoll erforscht werden kann, hängt von Förderzusagen sowie den Befunden der Chat-Modus-Forschung ab.
Nicht Bestandteil der aktuellen Förderphase. Fortgesetzte Förderung und methodische Vorarbeiten erforderlich.
$ paponox --status
Was der Prototyp gegenwärtig dokumentiert demonstriert (Phase 0)
# Navigation
→ "wo bin ich" — Position + Spurzustand (erste Machbarkeit)
→ "gehe zu Takt 5" — Direkte Positions-Adressierung (erste Machbarkeit)
# Transport
→ Wiedergabe / Stop / Aufnahme
→ Cycle-Bereich definieren — z. B. Takt 5–15 (erste Machbarkeit)
# Mixing
→ Mute / Solo / Volume / Pan — mit auditiver Rückmeldung (erste Machbarkeit)
→ "was siehst du" / "klick auf X"
# Projekt & modale Dialoge
→ Speichern / Speichern unter — mit Dialog-Automation (erste Machbarkeit)
→ Audio-Import / Bounce — mehrstufige Dialog-Sequenz (erste Machbarkeit)
Methodische Grundprinzipien
Wie wir die Forschungsfrage operativ angehen — vier Prinzipien, die der Prototyp bereits empirisch umsetzt.
On-Device-Inferenz
Lokal & kostenfreiWir nutzen Apples FoundationModels als geräteinternes Sprachmodell — vollständig lokal ausgeführt. Forschungsprämisse: keine Cloud-Anbindung, keine Datenweitergabe, keine laufenden Inferenzkosten.
Process Injection
Direkter Zugriff erforschtDirekte Integration in den DAW-Prozess über Apples dokumentiertes DYLD_INSERT_LIBRARIES sowie die öffentliche Objective-C-Laufzeit — methodischer Ansatz zur Erforschung, in welchem Umfang interne Datenmodelle ohne Zugeständnisse an die Bedienung erschlossen werden können.
Echtzeit-IPC
Niedrige Latenz im FokusBidirektionale Inter-Process-Communication via Unix-Domain-Socket im JSON-Lines-Format. Wir untersuchen, wie niedrig die End-to-End-Latenz bleiben kann, wenn alle Komponenten lokal und synchron operieren.
Privacy by Design
Keine DatenweitergabeForschungsethisches Prinzip: Sämtliche Daten verbleiben auf dem Endgerät der Nutzerin. Kein Account, kein Tracking, kein Upload. Vision-Modul, Sprachmodell und Sprachausgabe operieren ausschließlich lokal.
Vom Chat zur DAW
Vier Schichten. Der Prototyp belegt: Im Prinzip ist das Verfahren tragfähig. Die Detail-Operationalisierung ist Gegenstand der laufenden Forschung.
Chat-CLI
Textbasierte Befehle in deutscher Sprache
PapoNox Core
Intent-Engine + On-Device-LLM-Fallback
IPC-Brücke
Unix-Domain-Socket + JSON-Lines
Logic Pro
Objective-C-Laufzeit + CGEvent-Synthese
Meilensteine
Was bislang erreicht wurde — und was methodisch noch zu vermessen ist.
Architektur-Machbarkeit
- Forschungsfrage präzise formuliert
- Prototyp als dokumentierter Proof-of-Concept
- On-Device-LLM und öffentliche Laufzeit-Schnittstellen empirisch validiert
- Lizenzierung als Open-Source-Forschung (MIT für Code, CC-BY-4.0 für Dokumentation)
DAW-Steuerung — Validierungsphase
- Genauigkeitsvermessung kontinuierlicher Werte über das gesamte Wertespektrum
- Empirische Bestimmung der methodischen Grenzen
- Validierung der Drei-Tier-Grounding-Kaskade (AX → OCR → Vision)
- User-Studien, externes Accessibility-Audit, Konferenz-Einreichung — Förderung in Vorbereitung
Universelle Barrierefreiheit
- Übertragbarkeit der Methodik auf andere geschlossene Anwendungen
- Klassifikation adressierbarer Anwendungs-Domänen
- Kontextsensitivität als offene methodische Forschungsfrage
- Keine Zusage, sondern eine dokumentierte Perspektive
Fragen zum Forschungsprojekt??
Wir forschen offen und methodisch transparent. Schreib uns — wir freuen uns über Feedback, fachlichen Austausch und Kooperationsinteresse.
Kontakt