Sep 9, 03:32 AM

Zhipu AI, Tsinghua University Unveil CogVLM2 and vLLM Advances for Enhanced Visual Language Processing

Zhipu AI and Tsinghua University have introduced CogVLM2, a new generation of multimodal visual language models designed for enhanced image and video understanding, as well as temporal grounding in open-source applications. The advancements in CogVLM2 aim to improve the capabilities of AI in processing and interpreting visual data. Additionally, the vLLM platform has announced support for audio and image inputs, with upcoming features including video support and multi-modal LLMs, which are expected to expand the use cases for generative AI. DriveGenVLM is also advancing autonomous driving with generated videos and vision language models. These developments highlight significant progress in the field of artificial intelligence and machine learning, with further discussions expected at the Ray Summit, including updates on Qwen2-VL.

#Zhipu AI #Tsinghua University #CogVLM2 #DriveGenVLM #Ray Summit

Written with ChatGPT (GPT-4o).

Sources

Additional media

Image #1 for story zhipu-ai-tsinghua-university-unveil-cogvlm2-vllm-advances-enhanced-visual

Zhipu AI, Tsinghua University Unveil CogVLM2 and vLLM Advances for Enhanced Visual Language Processing

Sources

Additional media

Similar Stories

Similar Stories