Microsoft Research heeft onlangs OmniParser V2 geïntroduceerd, een baanbrekende tool die grote taalmodellen (LLM's) in staat stelt om als volwaardige computergebruiksagenten te functioneren.
De uitdaging van GUI-automatisering
Traditionele GUI-automatisering vereist dat agents de visuele elementen op een scherm kunnen identificeren en begrijpen.Dit omvat het herkennen van interactieve iconen en het correct interpreteren van de functies van verschillende schermcomponenten. Voorheen hadden LLM's moeite om deze taken uit te voeren vanwege beperkingen in het verwerken van visuele informatie.
Wat is OmniParser V2?
OmniParser V2 overbrugt deze kloof door schermafbeeldingen om te zetten in gestructureerde elementen die door LLM's kunnen worden geïnterpreteerd. Door GUI-screenshots te 'tokenizen' vanuit pixelruimtes naar gestructureerde elementen, stelt OmniParser LLM's in staat om op basis van deze elementen de volgende acties te voorspellen. Deze aanpak verbetert de nauwkeurigheid van LLM's bij het detecteren van kleinere interactieve elementen en versnelt de verwerkingstijd aanzienlijk.
Belangrijkste verbeteringen in OmniParser V2
- Verbeterde nauwkeurigheid: Dankzij training met een grotere set detectiegegevens voor interactieve elementen en functionele pictogramonderschriften, kan OmniParser V2 kleinere interactieve elementen nauwkeuriger identificeren.
- Snellere inference: Door de afbeeldingsgrootte van het pictogramonderschriftmodel te verkleinen, heeft OmniParser V2 de latentie met 60% verminderd ten opzichte van de vorige versie.
- Benchmark prestaties: In combinatie met GPT-4o behaalde OmniParser een state-of-the-art gemiddelde nauwkeurigheid van 39,6 op de recent uitgebrachte ScreenSpot Pro benchmark, een aanzienlijke verbetering ten opzichte van de oorspronkelijke score van 0,8 van GPT-4o.
Introductie van OmniTool
Om experimenten met verschillende agentinstellingen te versnellen, heeft Microsoft OmniTool ontwikkeld, een gedockeriseerde Windows-omgeving die een reeks essentiële tools voor agents bevat. OmniParser kan direct worden gebruikt met verschillende state-of-the-art LLM's, waaronder OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) en Anthropic (Sonnet), wat de stappen van schermbegrip, gronding, actieplanning en uitvoering combineert.
Risico's en maatregelen
In lijn met de AI-principes en Responsible AI-praktijken van Microsoft zijn er risicobeperkende maatregelen getroffen:
- Training met verantwoordelijke AI-gegevens: Het pictogramonderschriftmodel is getraind met Responsible AI-gegevens om te voorkomen dat het model gevoelige attributen van individuen (zoals ras of religie) afleidt.microsoft.com
- Beperking van schadelijke inhoud: Gebruikers worden aangemoedigd OmniParser alleen te gebruiken voor screenshots die geen schadelijke inhoud bevatten.
- Veiligheidsmaatregelen in OmniTool: Er is een dreigingsmodelanalyse uitgevoerd met behulp van de Microsoft Threat Modeling Tool. OmniTool wordt geleverd met een sandbox-dockercontainer, veiligheidsrichtlijnen en voorbeelden die beschikbaar zijn in de GitHub-repository. Daarnaast wordt geadviseerd om een menselijke controle in het proces te behouden om risico's te minimaliseren.
Met de introductie van OmniParser V2 zet Microsoft een significante stap in de richting van geavanceerde GUI-automatisering. Door LLM's uit te rusten met het vermogen om visuele elementen effectief te interpreteren en ermee te communiceren, opent OmniParser V2 nieuwe mogelijkheden voor AI-gedreven interacties en toepassingen.
OmniParser V2: Turning Any LLM into a Computer Use Agent - Microsoft ResearchAutomation requires agents with the ability to understand and interact with user screens. However, using general purpose LLM models to serve as GUI agents faces several challenges: 1) reliably identifying interactable icons within the […] |