Zum Hauptinhalt springen
Forschung

Intention-Based
Interface

Unsere Forschungsfrage: Lassen sich Menüstrukturen und Tastenkombinationen durch reine Absicht — semantisch erfasst, KI-vermittelt, lokal ausgeführt — ersetzen, und in welchem Umfang ist diese Substitution belastbar?

Drei Forschungssäulen

Forschungsmatrix

Chat-Eingabe, KI-Vision und Spracheingabe — drei Modalitäten, die wir parallel und in unterschiedlichen Reifegraden untersuchen.

In Forschung

Chat Mode

Das Gehirn

Textbasierter Dialog zwischen Anwender und DAW. Forschungsfrage: Wie reliabel lässt sich musikalische Intention aus freier deutscher Sprache extrahieren — und welche systematischen Grenzen hat dieses Vorgehen bei domänenspezifischer Terminologie?

Konzipiert für Screen-Reader und Braille-Display
In Forschung
In Forschung

AI Vision

Die Augen

Screenshot-Analyse, OCR und KI-gestützte Bilderkennung als methodischer Ansatz, um UI-Elemente jenseits offizieller Schnittstellen adressierbar zu machen. Funktioniert die Drei-Tier-Grounding-Kaskade — Accessibility-API → OCR-BBox → Vision-Language-Modell — verlässlich genug für den produktiven Einsatz? Eine offene Frage.

Offene Frage: Wie präzise erfasst die Vision-Schicht UI-Elemente reproduzierbar?
In Forschung
Langfristige Frage

Voice Control

Die Stimme

Sprach-zu-Text-Steuerung als mögliche Erweiterung der Eingabemodalität. Ob und wann diese Modalität sinnvoll erforscht werden kann, hängt von Förderzusagen sowie den Befunden der Chat-Modus-Forschung ab.

Zukunftsperspektive

Nicht Bestandteil der aktuellen Förderphase. Fortgesetzte Förderung und methodische Vorarbeiten erforderlich.

paponox_demo.sh — prototype
Proof-of-Concept

$ paponox --status

Was der Prototyp gegenwärtig dokumentiert demonstriert (Phase 0)

# Navigation

"wo bin ich" Position + Spurzustand (erste Machbarkeit)

"gehe zu Takt 5" Direkte Positions-Adressierung (erste Machbarkeit)

# Transport

Wiedergabe / Stop / Aufnahme

Cycle-Bereich definieren z. B. Takt 5–15 (erste Machbarkeit)

# Mixing

Mute / Solo / Volume / Pan mit auditiver Rückmeldung (erste Machbarkeit)

"was siehst du" / "klick auf X"

# Projekt & modale Dialoge

Speichern / Speichern unter mit Dialog-Automation (erste Machbarkeit)

Audio-Import / Bounce mehrstufige Dialog-Sequenz (erste Machbarkeit)

$phase-0Erste Proof-of-Concept-Befunde dokumentiert
Alles darüber hinaus ist Gegenstand der offenen Validierungsforschung
Architektur

Methodische Grundprinzipien

Wie wir die Forschungsfrage operativ angehen — vier Prinzipien, die der Prototyp bereits empirisch umsetzt.

On-Device-Inferenz

Lokal & kostenfrei

Wir nutzen Apples FoundationModels als geräteinternes Sprachmodell — vollständig lokal ausgeführt. Forschungsprämisse: keine Cloud-Anbindung, keine Datenweitergabe, keine laufenden Inferenzkosten.

Process Injection

Direkter Zugriff erforscht

Direkte Integration in den DAW-Prozess über Apples dokumentiertes DYLD_INSERT_LIBRARIES sowie die öffentliche Objective-C-Laufzeit — methodischer Ansatz zur Erforschung, in welchem Umfang interne Datenmodelle ohne Zugeständnisse an die Bedienung erschlossen werden können.

Echtzeit-IPC

Niedrige Latenz im Fokus

Bidirektionale Inter-Process-Communication via Unix-Domain-Socket im JSON-Lines-Format. Wir untersuchen, wie niedrig die End-to-End-Latenz bleiben kann, wenn alle Komponenten lokal und synchron operieren.

Privacy by Design

Keine Datenweitergabe

Forschungsethisches Prinzip: Sämtliche Daten verbleiben auf dem Endgerät der Nutzerin. Kein Account, kein Tracking, kein Upload. Vision-Modul, Sprachmodell und Sprachausgabe operieren ausschließlich lokal.

Der Stack

Vom Chat zur DAW

Vier Schichten. Der Prototyp belegt: Im Prinzip ist das Verfahren tragfähig. Die Detail-Operationalisierung ist Gegenstand der laufenden Forschung.

Input

Chat-CLI

Textbasierte Befehle in deutscher Sprache

Processing

PapoNox Core

Intent-Engine + On-Device-LLM-Fallback

Bridge

IPC-Brücke

Unix-Domain-Socket + JSON-Lines

Output

Logic Pro

Objective-C-Laufzeit + CGEvent-Synthese

Angestrebte Latenz:< 200ms
Forschungsetappen

Meilensteine

Was bislang erreicht wurde — und was methodisch noch zu vermessen ist.

Phase 0Abgeschlossen
Phase 0

Architektur-Machbarkeit

  • Forschungsfrage präzise formuliert
  • Prototyp als dokumentierter Proof-of-Concept
  • On-Device-LLM und öffentliche Laufzeit-Schnittstellen empirisch validiert
  • Lizenzierung als Open-Source-Forschung (MIT für Code, CC-BY-4.0 für Dokumentation)
Phase 1
Phase 1 — offen

DAW-Steuerung — Validierungsphase

  • Genauigkeitsvermessung kontinuierlicher Werte über das gesamte Wertespektrum
  • Empirische Bestimmung der methodischen Grenzen
  • Validierung der Drei-Tier-Grounding-Kaskade (AX → OCR → Vision)
  • User-Studien, externes Accessibility-Audit, Konferenz-Einreichung — Förderung in Vorbereitung
Phase 2
Langfristige Forschungsperspektive

Universelle Barrierefreiheit

  • Übertragbarkeit der Methodik auf andere geschlossene Anwendungen
  • Klassifikation adressierbarer Anwendungs-Domänen
  • Kontextsensitivität als offene methodische Forschungsfrage
  • Keine Zusage, sondern eine dokumentierte Perspektive

Fragen zum Forschungsprojekt??

Wir forschen offen und methodisch transparent. Schreib uns — wir freuen uns über Feedback, fachlichen Austausch und Kooperationsinteresse.

Kontakt