Zum Hauptinhalt springen
Forschung

Intention-Based
Interface

Unsere Forschungsfrage: Können Menüs und Tastenkombinationen durch reine Intention ersetzt werden – und wenn ja, wie weit?

Drei Forschungssäulen

Forschungsmatrix

Chat, Vision, Stimme – drei Ansätze, die wir parallel erforschen.

In Forschung

Chat Mode

Das Gehirn

Textbasierter Dialog mit der DAW. Forschungsfrage: Wie gut lässt sich musikalische Intention aus freier Sprache erkennen – und welche Grenzen hat das?

Ausgelegt auf Screen-Reader und Braille-Display
In Forschung
In Forschung

AI Vision

Die Augen

Screenshot-Analyse, OCR und KI-Bilderkennung als Forschungsansatz, um UI-Elemente ohne offizielle API adressierbar zu machen. Funktioniert das zuverlässig genug? Das ist offen.

Offene Frage: Wie präzise kann KI-Vision UI-Elemente erkennen?
In Forschung
Langfristige Frage

Voice Control

Die Stimme

Sprachsteuerung als mögliche Erweiterung. Ob und wann das sinnvoll erforscht werden kann, hängt von Finanzierung und den Ergebnissen der Chat-Forschung ab.

Zukunftsperspektive

Noch nicht Teil der aktuellen Forschung. Finanzierung und Vorarbeiten erforderlich.

paponox_demo.sh — prototype
Proof-of-Concept

$ paponox --status

Was der Prototyp aktuell demonstriert (Phase 0)

# Navigation

"wo bin ich" Position + Spur (erste Machbarkeit)

"gehe zu takt 5" Direkte Navigation (erste Machbarkeit)

# Transport

play / stop / rec

Loop setzen z.B. Takt 5–15 (erste Machbarkeit)

# Mixing

mute / solo / volume / pan mit akustischem Feedback (erste Machbarkeit)

"was siehst du" / "klick auf X"

# Projekt & Dialoge

speichern / speichern unter mit Dialog-Automation (erste Machbarkeit)

importiere audio / bounce 3-Schritt-Dialog (erste Machbarkeit)

$phase-0Erste Proof-of-Concept-Ergebnisse
Alles darüber hinaus ist offene Forschung
Architektur

Unser methodischer Ansatz

So versuchen wir die Forschungsfrage anzugehen – vier Prinzipien, die der Prototyp bereits umsetzt.

On-Device AI

Lokal & kostenlos

Wir setzen auf Apple FoundationModels als On-Device-LLM – läuft komplett auf dem Gerät. Forschungsprämisse: keine Cloud, keine Kosten, keine Datenweitergabe.

Process Injection

Direkter Zugang erforscht

Direkte Integration in die DAW über die öffentliche ObjC Runtime – methodischer Ansatz, um zu erforschen wie weit man ohne Zugeständnisse kommen kann.

Echtzeit-IPC

Niedrige Latenz im Fokus

Unix Domain Socket mit JSON-Lines – wir erforschen, wie niedrig die Latenz bleiben kann, wenn man alles lokal und synchron aufbaut.

Privacy by Design

Keine Datenweitergabe

Forschungsprinzip: alle Daten bleiben auf dem Gerät des Nutzers. Kein Account, kein Tracking, kein Upload. Vision, LLM und Sprachausgabe laufen lokal.

Der Stack

Vom Chat zur DAW

Vier Schichten. Der Prototyp zeigt: grundsätzlich geht es. Die Details sind Forschungsgegenstand.

Input

Chat CLI

Textbasierte Befehle (Deutsch)

Processing

PapoNox Core

Intent Engine + On-Device-LLM-Fallback

Bridge

IPC Bridge

Unix Socket + JSON-Lines

Output

Logic Pro

ObjC Runtime + CGEvent

Angestrebte Latenz:< 200ms
Forschungsetappen

Meilensteine

Was erreicht ist – und was noch erforscht werden muss.

Phase 0Abgeschlossen
Phase 0

Grundidee & Machbarkeit

  • Forschungsfrage formuliert
  • Prototyp als Proof-of-Concept
  • On-Device-LLM und öffentliche Runtime-Schnittstellen validiert
  • Lizenzierung als Open-Source-Forschung (MIT / CC-BY-4.0)
Phase 1
Phase 1 – offen

DAW-Steuerung erforschen

  • Wie weit lässt sich die DAW sprachlich steuern?
  • Wo stößt der Ansatz an Grenzen?
  • Welche Methoden decken welche Aufgaben ab?
  • Finanzierung noch offen
Phase 2
Langfristige Frage

Universelle Barrierefreiheit

  • Ist der Ansatz auf andere Software übertragbar?
  • Welche Klassen von Anwendungen sind adressierbar?
  • Kontext-Sensitivität als offene Forschungsfrage
  • Keine Zusage, nur eine Perspektive

Fragen zum Forschungsprojekt??

Wir forschen offen und transparent. Schreib uns – wir freuen uns über Feedback, Fragen und Kooperationsinteresse.

Kontakt