Manipulation von Gegenständen setzt ein kompliziertes Zusammenspiel von Wahrnehmung und Motorik voraus, auf das viele Faktoren wirken (Lernen, Umwelteinflüsse usw.). Bei Manipulationen in einer virtuellen Welt kommen noch zusätzliche Schwierigkeiten hinzu. England (1995) betont hierbei die Aufgaben-Angemessenheit: Die derzeit verfügbaren VR-Systeme zur Manipulation von Objekten befinden sich noch in einem frühen Entwicklungsstadium: Es können nur sehr begrenzte perzeptuelle Informationen erzeugt werden. Deshalb ist es um so wichtiger, vorhandenes Wissen über Aufgabenfaktoren effizient einzusetzen.
England (1995) geht von einfachen Reflexen als Beispiel für motorisch-sensorische Verhaltensweisen aus, die sich gut untersuchen lassen. Zur Steuerung der Manipulation von Objekten ist insbesondere sensorisch-motorisches Feedback wichtig, das beispielsweise von Rezeptoren in der Haut, kinästhetischen Empfindungen, dem Gleichgewichtssinn und visuellen und auditorischen Empfindungen stammt. Dabei ergibt sich in wichtigen Aspekten eine Redundanz, die bei VR-Applikationen nicht immer gegeben ist.
Beispiel für hohe Integration von sensorischen und motorischen Aspekten: Downhill-Fahren mit dem MTB: Sowohl sensorische Informationen (visuell, vestibulär (auch Bremsen und Querbeschleunigungen), auditiv (Schaltung, blockierende Reifen, Atemgeräusche zur Steuerung der Belastungsintensität), propriozeptiv (tiefe Schlaglöcher), taktil (Luftwiderstand und Schlagkräfte vom Lenker als Indiz für Geschwindigkeit), eventuell sogar Nozizeption; bei sehr langen Strecken außerdem Hunger, Ermüdung, ...) als auch komplexe motorische Abläufe (Treten, Bremsen, Balancieren, Abfedern, Springen, Dosierung des Greifkräfte). Gerade bei höheren Geschwindigkeiten ist außerdem unbedingt Feedback in Echtzeit notwendig.
Beim Erlernen motorischer Fertigkeiten werden zusammengehörige Aufgabenelemente zu Teilaufgaben zusammengefaßt. Wenn sich derartige Fertigkeiten weiter verbessern, findet eine Veränderungen solcher funktionaler Einheiten statt (chunking). Eine wesentliche Voraussetzung für das Erlernen motorischer Fertigkeiten ist Feedback, insbesondere in der Anfangsphase. Mit zunehmender Fertigkeit verliert insbesondere das visuelle Feedback an Bedeutung, wohingegen die Bedeutung von taktilem Feedback zunimmt, wenn die Aufgabe automatisiert wird. Aufgrund des unzureichenden sensorischen Feedbacks bei VR-Applikationen wird das Erlernen motorischer Fertigkeiten erschwert, andererseits werden deutlich geringere Anforderungen an das sensorische Feedback gestellt bei Aufgaben, deren Bearbeitung bereits in der realen Welt erlernt worden ist.
Bei der Interaktion mit der Umwelt werden Informationen aus verschiedenen Modalitäten eingesetzt, wodurch eine gewisse Redundanz gewährleistet ist, die den Signal-Rausch-Abstand vergrößert. Manchmal dominiert eine Modalität eine andere: Beim sogenannten ``Bauchredner-Effekt'' scheint die Stimme von der Puppe zu kommen, eine genaue Ortung der tatsächlichen Quelle ist nur bei geschlossenen Augen möglich. Nach England (1995) läßt aber die Dominanz eines Kanals nach, wenn dessen Information ungenauer wird, was bei VR-Applikationen der Fall ist. Wird beispielsweise die visuelle Information unscharf, kommt der taktilen Information eine größere Bedeutung zu. Bei immersiven VR-Applikationen kann es zu Inkonsistenzen zwischen verschiedenen Modalitäten kommen (z.B. durch zeitliche Verzögerungen einzelner Kanäle). In einem solchen Fall findet eine Adaptation des untergeordneten Sinnes an den dominanten Sinn statt.
Durch gezieltes Verlagern der Aufmerksamkeit läßt sich Information aus verschiedenen Modalitäten integrieren. Zu Beginn des Erlernens einer neuen Fertigkeit wird zur Durchführung mehr Aufmerksamkeit benötigt als bei gut gelernten Fertigkeiten, bei denen das Verhalten automatisiert ist (Modell: Es existiert ein Pool an Aufmerksamkeit, von dem jede Tätigkeit einen Teil abzieht, teilweise werden auch mehrere Pools für unterschiedliche Arten von Aufgaben postuliert). Die Integration verschiedener Modalitäten kann auf unterschiedlichen Ebenen der Verarbeitung stattfinden. Wenn bei einer Modalität nur minimale effektive Reize vorliegen, kann deren Wahrnehmung durch intermodale Verstärkung (intermodal enhancement) erleichtert werden. In VR-Applikationen, bei denen die Modalitäten nicht gut aufeinander abgestimmt sind, können derartige minimale effektive Reize so intermodal verstärkt werden, daß sie die Wahrnehmung der VR stören.
England (1995) befaßt sich auch mit motorischem Verhalten: Prinzipiell unterscheidet er ein Kontinuum zwischen Reflexen und vollständig willentlichen Verhaltensweisen, je nach dem Grad der bewußten Steuerung. Zur Erklärung motorischen Verhaltens müssen keine closed-loop-Programme postuliert werden, da Verhaltensweisen auch ohne (afferentes) Feedback durchgeführt werden können (wie man beispielsweise an Affen erkennen kann, deren afferente Nervenbahnen durchtrennt wurden: Sie können immer noch rennen, klettern, ...). Im Gegensatz hierzu nimmt die open-loop-Theorie von Keele an, daß motorische Programme zentral gespeichert sind. Schmidt's Schema-Theorie zum motorischen Lernen geht von der Speicherung allgemeiner anstelle spezifischer Prozeduren aus, die mittels Feedback an die jeweilige Situation angepaßt werden. Theorien zur dynamischen Oszillation der motorischen Steuerung postulieren dagegen keine zentral gespeicherten Mustern, sondern sie gehen von emergenten Eigenschaften aus, die sich aus der Dynamik des motorischen Systems ergeben (es wird beispielsweise eine Analogie zwischen Muskeln und Sprungfedern hergestellt), beispielsweise wird eine direkte Kopplung von Wahrnehmung und Handlungen angenommen.
England (1995) unterscheidet zwischen direkten (mit der Hand bzw. über einen Datenhandschuh) und indirekten (Verwendung von Werkzeugen) Manipulationen von Objekten. Er unterscheidet auch vier Phasen der Manipulation (sowie Unteraspekte wie Anzahl der Freiheitsgrade, Ergreifen mit zwei Fingern oder Umschließen mit der ganzen Hand, Art der Manipulation, ...):
England (1995) kommt zu dem Schluß, daß das Erlernen motorischer Fertigkeiten bei VR-Applikationen schwierig ist, insbesondere wenn kein natürliche Interaktion möglich ist. Wichtig ist auch die Darbietung redundanter Information über verschiedene Sinnesmodalitäten hinweg.