Independent Science + Technology

Category: multimodal-ai

Exploring and Explaining The New Frontiers of Advanced Prompt Injection

Post date November 16, 2025
Post author By MattLeads
Post categories In ai, ai-chatbot, ai-security, artificial-intelligence, hackernoon-top-story, multimodal-ai, prompt-injection, security

Teaching AI to See and Speak: Inside the OW‑VISCap Approach

Post date November 4, 2025
Post author By Instancing
Post categories In computer-vision, contrastive-learning, deep-learning, multimodal-ai, object-captioning, open-world-ai, transformers, video-segmentation

See, Track, Describe: How OW‑VISCap Lets AI Tell the Story Behind Every Frame

Post date November 4, 2025
Post author By Instancing
Post categories In computer-vision, deep-learning, machine-learning-research, multimodal-ai, object-captioning, open-world-ai, transformers, video-segmentation

Why Multimodal AI Broke the Data Pipeline — And How Daft Is Beating Ray and Spark to Fix It

Post date November 3, 2025
Post author By YK Sugi
Post categories In ai-data-processing, aiops, daft-vs-ray-data, data-engineering, distributed-systems, mlops, multimodal-ai, ray-data-performance

Why Multimodal AI Broke the Data Pipeline — And How Daft Is Beating Ray and Spark to Fix It

Post date November 3, 2025
Post author By YK Sugi
Post categories In ai-data-processing, aiops, daft-vs-ray-data, data-engineering, distributed-systems, mlops, multimodal-ai, ray-data-performance

The Unseen Battle: How Your Robots Are Still Stuck in the Stone Age (And How Gemini ER 1.5

Post date October 24, 2025
Post author By Akhilesh Yadav
Post categories In adaptive-learning, google-gemini, multimodal-ai, robotics-automation, the-nextgen-enterprise

AI for Risk Stratification: Multimodal DL Models Offer Enhanced Prognosis for Pulmonary Embolism

Post date October 3, 2025
Post author By Tomography
Post categories In ai, ai-in-healthcare, ctpa, deep-learning, healthcare-tech, multimodal-ai, multiomic-dl-models, rv-dysfunction

AI for Risk Stratification: Multimodal DL Models Offer Enhanced Prognosis for Pulmonary Embolism

Post date October 3, 2025
Post author By Tomography
Post categories In ai, ai-in-healthcare, ctpa, deep-learning, healthcare-tech, multimodal-ai, multiomic-dl-models, rv-dysfunction

Predicting PE Mortality: Enhancing Clinical Risk Assessment with AI and Multimodal Deep Learning

Post date October 2, 2025
Post author By Tomography
Post categories In ai, ctpa, ctpa-imaging-features, deep-learning, multimodal-ai, multimodal-deep-learning, pesi-fused-models, pulmonary-embolism

VRP Outperforms Baselines in Jailbreaking MLLMs, Transferring Across Models, and Evading Defenses

Post date August 11, 2025
Post author By Large Models (dot tech)
Post categories In adversarial-ai-research, ai-defense-evasion, ai-model-vulnerability, jailbreak-ai, mllm-security, multimodal-ai, universal-attack, vrp-attack

Introducing VRP: Structure-Based Role-Play Attacks on Multimodal Large Language Models

Post date August 11, 2025
Post author By Large Models (dot tech)
Post categories In adversarial-ai, ai-misuse-prevention, ai-model-security, mllm-jailbreak, multimodal-ai, role-play-attack, universal-jailbreak, visual-role-play

How Idefics2 Answers the Unasked Questions in Vision-Language Modeling

Post date July 15, 2025
Post author By Pierluigi Vinciguerra
Post categories In ai-model-designs, efficient-ai, idefics-2, ml-benchmarks, multimodal-ai, open-source-ai, transformer-models, vision-language-models

This Open-Source AI Reads the Earth Like ChatGPT Reads Text

Post date June 19, 2025
Post author By George Anadiotis
Post categories In ai, data-science, environmental-impact, hackernoon-top-story, multimodal-ai, sustainability, transformers, vector-embedding

Build Your Own Multimodal RAG: Image-Powered Q&A with ColPali and Qwen2-VL

Post date June 9, 2025
Post author By Christian Grech
Post categories In artificial-intelligence, hugging-face, large-language-models, multimodal-ai, retrieval-augmented-gen

AI That Sees, Hears and Acts: Interview with OmniChat AI, Startups of the Year 2024 Nominee

Post date February 9, 2025
Post author By OmniChat AI
Post categories In ai-startup-interview, multimodal-ai, omnichat-ai, startups-of-the-year, startups-of-the-year-2024, startups-of-the-year-nominees, startups-on-hackernoon, tech-interviews

Advancing Multimodal Video Generation with Responsible AI and Stylization

Post date January 13, 2025
Post author By Teleplay Technology
Post categories In llms, multimodal-ai, self-supervised-learning, super-resolution-ai, text-to-video-evaluation, video-generation-ai, videopoet, zero-shot-learning

Build Real-Time Multimodal RAG Applications Using SingleStore!

Post date August 27, 2024
Post author By Pavan Belagatti
Post categories In multimodal, multimodal-ai, rags, retrieval-augmented, vector-database

At the Forefront of AI Research: Multimodality, Agents, Open-Source LLM, and Beyond

Post date July 4, 2024
Post author By Vik Bogdanov
Post categories In ai-ethics, ai-trends, founder-interview, hackernoon-top-story, hamudi-naanaa, multimodal-ai, portal.ai, shadow-ai

Nothing left to load.