Intention-Based
Interface
Unsere Forschungsfrage: Können Menüs und Tastenkombinationen durch reine Intention ersetzt werden – und wenn ja, wie weit?
Forschungsmatrix
Chat, Vision, Stimme – drei Ansätze, die wir parallel erforschen.
Chat Mode
Das Gehirn
Textbasierter Dialog mit der DAW. Forschungsfrage: Wie gut lässt sich musikalische Intention aus freier Sprache erkennen – und welche Grenzen hat das?
AI Vision
Die Augen
Screenshot-Analyse, OCR und KI-Bilderkennung als Forschungsansatz, um UI-Elemente ohne offizielle API adressierbar zu machen. Funktioniert das zuverlässig genug? Das ist offen.
Voice Control
Die Stimme
Sprachsteuerung als mögliche Erweiterung. Ob und wann das sinnvoll erforscht werden kann, hängt von Finanzierung und den Ergebnissen der Chat-Forschung ab.
Noch nicht Teil der aktuellen Forschung. Finanzierung und Vorarbeiten erforderlich.
$ paponox --status
Was der Prototyp aktuell demonstriert (Phase 0)
# Navigation
→ "wo bin ich" — Position + Spur (erste Machbarkeit)
→ "gehe zu takt 5" — Direkte Navigation (erste Machbarkeit)
# Transport
→ play / stop / rec
→ Loop setzen — z.B. Takt 5–15 (erste Machbarkeit)
# Mixing
→ mute / solo / volume / pan — mit akustischem Feedback (erste Machbarkeit)
→ "was siehst du" / "klick auf X"
# Projekt & Dialoge
→ speichern / speichern unter — mit Dialog-Automation (erste Machbarkeit)
→ importiere audio / bounce — 3-Schritt-Dialog (erste Machbarkeit)
Unser methodischer Ansatz
So versuchen wir die Forschungsfrage anzugehen – vier Prinzipien, die der Prototyp bereits umsetzt.
On-Device AI
Lokal & kostenlosWir setzen auf Apple FoundationModels als On-Device-LLM – läuft komplett auf dem Gerät. Forschungsprämisse: keine Cloud, keine Kosten, keine Datenweitergabe.
Process Injection
Direkter Zugang erforschtDirekte Integration in die DAW über die öffentliche ObjC Runtime – methodischer Ansatz, um zu erforschen wie weit man ohne Zugeständnisse kommen kann.
Echtzeit-IPC
Niedrige Latenz im FokusUnix Domain Socket mit JSON-Lines – wir erforschen, wie niedrig die Latenz bleiben kann, wenn man alles lokal und synchron aufbaut.
Privacy by Design
Keine DatenweitergabeForschungsprinzip: alle Daten bleiben auf dem Gerät des Nutzers. Kein Account, kein Tracking, kein Upload. Vision, LLM und Sprachausgabe laufen lokal.
Vom Chat zur DAW
Vier Schichten. Der Prototyp zeigt: grundsätzlich geht es. Die Details sind Forschungsgegenstand.
Chat CLI
Textbasierte Befehle (Deutsch)
PapoNox Core
Intent Engine + On-Device-LLM-Fallback
IPC Bridge
Unix Socket + JSON-Lines
Logic Pro
ObjC Runtime + CGEvent
Meilensteine
Was erreicht ist – und was noch erforscht werden muss.
Grundidee & Machbarkeit
- Forschungsfrage formuliert
- Prototyp als Proof-of-Concept
- On-Device-LLM und öffentliche Runtime-Schnittstellen validiert
- Lizenzierung als Open-Source-Forschung (MIT / CC-BY-4.0)
DAW-Steuerung erforschen
- Wie weit lässt sich die DAW sprachlich steuern?
- Wo stößt der Ansatz an Grenzen?
- Welche Methoden decken welche Aufgaben ab?
- Finanzierung noch offen
Universelle Barrierefreiheit
- Ist der Ansatz auf andere Software übertragbar?
- Welche Klassen von Anwendungen sind adressierbar?
- Kontext-Sensitivität als offene Forschungsfrage
- Keine Zusage, nur eine Perspektive
Fragen zum Forschungsprojekt??
Wir forschen offen und transparent. Schreib uns – wir freuen uns über Feedback, Fragen und Kooperationsinteresse.
Kontakt