Google wirbt stark für sein neues Modell Gemini 2.0. Das erste Modell, Gemini 2.0 Flash, ist bereits live und bietet neue KI-Agent-Erlebnisse wie Project Astra und Project Mariner. Google beendete das Jahr 2024 mit einem Paukenschlag. Der Mountain View-Riese kündigte am Mittwoch mehrere KI-Neuigkeiten an, darunter die Veröffentlichung von Gemini 2.0, einem neuen Sprachmodell mit erweiterten multimodalen Fähigkeiten. Das neue Modell leitete das ein, was Google die „Agenten-Ära“ nennt, in der künstlich intelligente virtuelle Agenten Aufgaben in Ihrem Namen ausführen können.
Zunächst veröffentlichte Google nur ein Modell der Gemini 2.0-Serie: Gemini 2.0 Flash Experimental, ein ultraschnelles und leichtes Modell, das multimodale Ein- und Ausgabe unterstützt. Es generiert nativ Bilder gemischt mit Text und mehrsprachigem Audio und lässt sich nahtlos in die Google-Suche, Codeausführung und andere Tools integrieren. Diese Funktionen befinden sich derzeit in der Vorschau und stehen Entwicklern und Betatestern zur Verfügung. Obwohl Flash 2.0 kleiner ist, übertrifft es das Gemini 1.5 Pro in mehreren Bereichen, darunter Fakten, Argumentation, Codierung und Mathematik, und ist doppelt so schnell. Ab heute können reguläre Benutzer die Chat-optimierte Version von Gemini 2.0 Flash im Web testen und sie wird bald in der mobilen Gemini-App verfügbar sein.
Google zeigte auch mehrere beeindruckende Erlebnisse, die mit Gemini 2.0 erstellt wurden. Das erste ist eine aktualisierte Version von Project Astra, dem experimentellen virtuellen KI-Agenten, den Google erstmals im Mai 2024 vorführte. Mit Gemini 2.0 ist es jetzt möglich, Gespräche in mehreren Sprachen zu führen. Mithilfe von Tools wie der Google-Suche, Lens und Maps können Sie sich an den Inhalt vergangener Gespräche erinnern und Sprachen mit menschlicher Gesprächslatenz verstehen. Project Astra ist für die Ausführung auf Smartphones und Brillen konzipiert, ist jedoch derzeit auf eine kleine Gruppe vertrauenswürdiger Tester beschränkt. Wenn Sie den Prototyp auf Ihrem Android-Handy ausprobieren möchten, können Sie sich hier auf die Warteliste setzen. Es gibt auch eine sehr coole multimodale Echtzeit-API-Demo, ähnlich wie bei Project Astra, die es Ihnen ermöglicht, mit dem Chatbot in Echtzeit per Video, Sprache und Bildschirmfreigabe zu interagieren.
Als nächstes kommt Project Mariner, eine experimentelle Chrome-Browsererweiterung, die im Internet surft und Aufgaben für Sie erledigt. Die Erweiterung, die jetzt ausgewählten Testern in den Vereinigten Staaten zur Verfügung steht, nutzt die multimodalen Fähigkeiten von Gemini 2.0, um „Informationen auf dem Browserbildschirm zu verstehen und zu begründen, einschließlich Pixeln und Webseitenelementen wie Text, Code, Bildern und Formularen“. Google gibt zu, dass die Technologie noch in den Kinderschuhen steckt und nicht immer zuverlässig ist. Aber auch in seiner aktuellen Prototypenform ist es beeindruckend und Sie können es sich in der YouTube-Demo selbst ansehen.
Google hat außerdem Jules veröffentlicht, einen KI-Code-Agenten, der auf Gemini 2.0 basiert. Es lässt sich direkt in Ihren GitHub-Workflow integrieren und das Unternehmen gibt an, dass es Fehlerbehebungen und sich wiederholende, zeitaufwändige Aufgaben bewältigen kann, „während Sie sich auf das konzentrieren, was Sie wirklich erstellen möchten“.
Derzeit sind viele der neuen Ankündigungen auf Ersttester und App-Entwickler beschränkt. Google sagte, dass es plant, Gemini 2.0 Anfang nächsten Jahres in sein Produktportfolio zu integrieren, einschließlich Suche, Arbeitsbereiche, Karten und mehr. Bis dahin werden wir ein besseres Verständnis dafür haben, wie diese neuen multimodalen Funktionen und Verbesserungen in reale Anwendungsfälle umgesetzt werden. Zu den Modellen Gemini 2.0 Ultra und Pro liegen noch keine Informationen vor