Microsoft OmniParser V2 maakt AI efficiënter in navigeren op schermen

Microsoft OmniParser V2 maakt AI efficiënter in navigeren op schermen

Microsoft Research heeft onlangs OmniParser V2 geïntroduceerd, een baanbrekende tool die grote taalmodellen (LLM's) in staat stelt om als volwaardige computergebruiksagenten te functioneren.

De uitdaging van GUI-automatisering

Traditionele GUI-automatisering vereist dat agents de visuele elementen op een scherm kunnen identificeren en begrijpen.Dit omvat het herkennen van interactieve iconen en het correct interpreteren van de functies van verschillende schermcomponenten. Voorheen hadden LLM's moeite om deze taken uit te voeren vanwege beperkingen in het verwerken van visuele informatie.​

Wat is OmniParser V2?

OmniParser V2 overbrugt deze kloof door schermafbeeldingen om te zetten in gestructureerde elementen die door LLM's kunnen worden geïnterpreteerd. Door GUI-screenshots te 'tokenizen' vanuit pixelruimtes naar gestructureerde elementen, stelt OmniParser LLM's in staat om op basis van deze elementen de volgende acties te voorspellen. Deze aanpak verbetert de nauwkeurigheid van LLM's bij het detecteren van kleinere interactieve elementen en versnelt de verwerkingstijd aanzienlijk.​

Microsoft just dropped OmniParser V2

Belangrijkste verbeteringen in OmniParser V2

  • Verbeterde nauwkeurigheid: Dankzij training met een grotere set detectiegegevens voor interactieve elementen en functionele pictogramonderschriften, kan OmniParser V2 kleinere interactieve elementen nauwkeuriger identificeren.​
  • Snellere inference: Door de afbeeldingsgrootte van het pictogramonderschriftmodel te verkleinen, heeft OmniParser V2 de latentie met 60% verminderd ten opzichte van de vorige versie.​
  • Benchmark prestaties: In combinatie met GPT-4o behaalde OmniParser een state-of-the-art gemiddelde nauwkeurigheid van 39,6 op de recent uitgebrachte ScreenSpot Pro benchmark, een aanzienlijke verbetering ten opzichte van de oorspronkelijke score van 0,8 van GPT-4o.​

Introductie van OmniTool

Om experimenten met verschillende agentinstellingen te versnellen, heeft Microsoft OmniTool ontwikkeld, een gedockeriseerde Windows-omgeving die een reeks essentiële tools voor agents bevat. OmniParser kan direct worden gebruikt met verschillende state-of-the-art LLM's, waaronder OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) en Anthropic (Sonnet), wat de stappen van schermbegrip, gronding, actieplanning en uitvoering combineert.​

Risico's en maatregelen

In lijn met de AI-principes en Responsible AI-praktijken van Microsoft zijn er risicobeperkende maatregelen getroffen:

  • Training met verantwoordelijke AI-gegevens: Het pictogramonderschriftmodel is getraind met Responsible AI-gegevens om te voorkomen dat het model gevoelige attributen van individuen (zoals ras of religie) afleidt.​microsoft.com
  • Beperking van schadelijke inhoud: Gebruikers worden aangemoedigd OmniParser alleen te gebruiken voor screenshots die geen schadelijke inhoud bevatten.​
  • Veiligheidsmaatregelen in OmniTool: Er is een dreigingsmodelanalyse uitgevoerd met behulp van de Microsoft Threat Modeling Tool. OmniTool wordt geleverd met een sandbox-dockercontainer, veiligheidsrichtlijnen en voorbeelden die beschikbaar zijn in de GitHub-repository. Daarnaast wordt geadviseerd om een menselijke controle in het proces te behouden om risico's te minimaliseren.

Met de introductie van OmniParser V2 zet Microsoft een significante stap in de richting van geavanceerde GUI-automatisering. Door LLM's uit te rusten met het vermogen om visuele elementen effectief te interpreteren en ermee te communiceren, opent OmniParser V2 nieuwe mogelijkheden voor AI-gedreven interacties en toepassingen.​

OmniParser V2: Turning Any LLM into a Computer Use Agent - Microsoft Research

Automation requires agents with the ability to understand and interact with user screens. However, using general purpose LLM models to serve as GUI agents faces several challenges: 1) reliably identifying interactable icons within the […]

ONTDEK MEER

 

Aanbevolen voor jou

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

WEBSITE LATEN MAKEN?​​​​​​​​​​​​​​

Kies voor een UP-TO-DATE AI Website 100% in Google

Een UP-TO-DATE AI Website maakt het gemakkelijk om automatisch up-to-date te blijven met je klanten en overal aanwezig te zijn.

Maak een afspraak