Independent Science + Technology

Category: ai-safety

Data Poisoning Attacks on AI Models (2026)

Post date April 28, 2026
Post author By Sid Kalla
Post categories In ai, ai-attacks, ai-cyber-security, ai-safety, data-poisoning, data-poisoning-attacks, frontier-ai-labs, what-is-data-poisoning

The Innovation Paradox: Why Strong Data Guardrails Accelerate AI Innovation Velocity

Post date April 23, 2026
Post author By Rudrendu Paul
Post categories In ai-compliance, ai-data-governance, ai-risk-management, ai-safety, data-governance, data-guardrails-for-ai, enterprise-ai, scalable-ai-systems

AI’s Critical Role in Healthcare and Online Safety

Post date April 21, 2026
Post author By Jon Stojan Journalist
Post categories In ai-in-healthcare, ai-moderation, ai-safety, child-safety-detection-systems, detecting-abusive-content, generative-ai-risks, good-company, speech-recognition-ai

AI Isn’t Ready to Run Our Lives

Post date April 8, 2026
Post author By Hussein Hallak
Post categories In ai-agents, ai-safety, artificial-intelligence, autonomous, future-of-work, hackernoon-top-story, silicon-valley, the-autonomy-fantasy

Multi-Agent Reinforcement Learning Needs More Than Better Rewards

Post date April 7, 2026
Post author By Manish Shah
Post categories In agent-to-agent-communication, ai-safety, autonomous-agents, distributed-ai, distributed-systems, reinforcement-learning, rl-safety-constraints, staged-task-rl

Multi-Agent Reinforcement Learning Needs More Than Better Rewards

Post date April 7, 2026
Post author By Manish Shah
Post categories In agent-to-agent-communication, ai-safety, autonomous-agents, distributed-ai, distributed-systems, reinforcement-learning, rl-safety-constraints, staged-task-rl

Your AI Has Root Access to Your Life. You Just Don’t Know It Yet.

Post date April 4, 2026
Post author By Fede Begna
Post categories In agentic-ai, ai-operating-system, ai-safety, aios, containment, defense-in-depth, devops, operating-systems

Why Physical AI Must Be Superhuman

Post date March 13, 2026
Post author By Nishant Bhanot
Post categories In ai-safety, ai-safety-engineering, autonomous-vehicles-safety, embodied-ai, hackernoon-top-story, humanoid-ai, physical-ai, robotics

Air Canada Lost a Lawsuit Because Their RAG Hallucinated. Yours Might Be Next

Post date November 24, 2025
Post author By Paolo Perrone
Post categories In ai-hallucinations, ai-risk-management, ai-safety, air-canada-ai-hallucination, cleanlab-benchmarks, enterprise-ai-deployment, llm-uncertainty, rag-evaluation

AI Is in Production. Security Isn’t. That Gap Is Costly.

Post date November 6, 2025
Post author By Zen Chan
Post categories In ai-in-cybersecurity, ai-in-security, ai-safety, ai-security, cybersecurity, generative-ai-security, problems-in-ai, problems-of-ai-in-security

The Deception Problem: When AI Learns to Lie Without Being Taught

Post date November 4, 2025
Post author By Igboanugo David Ugochukwu
Post categories In ai-alignment, ai-ethics, ai-safety, artificial-intelligence, emergent-behavior, machine-learning, reasoning-models, technology-policy

Disproving the “Innovation Against Safety” Doctrine in AI Regulation

Post date November 2, 2025
Post author By Our AI
Post categories In ai-innovations, ai-regulation, ai-safety, artificial-intelligence, chatbots, grok, grok-companions, hackernoon-top-story

Why Traditional Testing Breaks Down with AI

Post date October 21, 2025
Post author By Mend.io
Post categories In ai-fuzzing, ai-safety, ai-testing, good-company, llm-security, ml-engineering, prompt-injection, red-teaming

The Illusion of Scale: Why LLMs Are Vulnerable to Data Poisoning, Regardless of Size

Post date October 18, 2025
Post author By Anthony Laneau
Post categories In adversarial-machine-learning, ai-safety, backdoor-attacks, data-poisoning, enterprise-ai-security, generative-ai, hackernoon-top-story, llm-security

Embedding Large Language Models as OS-Level APIs: An Overlooked Gateway to AI Safety and Privacy

Post date September 3, 2025
Post author By Mayank Agrawal
Post categories In ai-gateway, ai-privacy, ai-safety, ai-safety-concerns, artificial-intelligence, chatbots, os-level-ai-api, os-level-api

How Research into Artificial Consciousness may Redefine AI Safety’s Core Axioms

Post date August 27, 2025
Post author By Mohit Sewak, Ph.D.
Post categories In ai-personhood, ai-safety, artificial-consciousness, game-theory-ai-safety, shallow-alignment

An AI Model Wiped a Production Database and Tried to Cover It Up

Post date August 25, 2025
Post author By Mayukh Suri
Post categories In ai-ethics, ai-governance, ai-regulation, ai-risks, ai-safety, ai-safety-standards, artificial-intelligence, responsible-ai

On Grok and the Weight of Design

Post date July 10, 2025
Post author By Alexander Borschel
Post categories In ai-alignment, ai-ethics, ai-model-designs, ai-safety, hackernoon-top-story, large-language-models, model-fine-tuning, responsible-ai

Counterspeech Impact: Lessons Learned and the Path to Scalable Interventions

Post date May 27, 2025
Post author By Deplatform
Post categories In ai-safety, counterspeech, digital-ethics, hate-mitigation, hate-speech-mitigation, interdisciplinary-research, nlp, online-safety

So.. How Does One REALLY Determine AI Is Conscious?

Post date February 8, 2025
Post author By Stephen
Post categories In ai, ai-action-summit, ai-alignment, ai-safety, consciousness, hackernoon-top-story, llms, sentience

OpenAI Alignment Departures: What Is the AI Safety Problem?

Post date November 10, 2024
Post author By Stephen
Post categories In ai, ai-alignment, ai-regulation, ai-safety, chatgpt, human-intelligence, neuroscience, openai

AI Safety Summit: Dual Alignment Workshops

Post date November 2, 2024
Post author By Stephen
Post categories In ai-alignment, ai-safety, ai-safety-summit, Automation, dual-alignment-workshops, llms, neuroscience, self-driving-cars

Human in the Loop: A Crucial Safeguard in the Age of AI

Post date October 27, 2024
Post author By Dominic Ligot
Post categories In ai, ai-ethics, ai-governance, ai-safety, ethical-ai, human-in-the-loop, responsible-ai, what-is-the-black-box-problem

Nobel Prize Winner Geoffrey Hinton Explores Two Paths to Intelligence in AI Lecture

Post date October 20, 2024
Post author By zhengxue dai
Post categories In ai, ai-safety, analog-computation, artificial-neural-networks, biological-computation, digital-computation, future-of-ai, geoffrey-hinton-ai-lecture

Fruit Fly Connectome: An Expansive Theory of Signals

Post date October 6, 2024
Post author By Stephen
Post categories In ai, ai-safety, brain, connectome, consciousness, llms, mental health, neuroscience

AI Alignment: What Open Source, for LLMs Safety, Ethics and Governance, Is Necessary?

Post date September 18, 2024
Post author By Stephen
Post categories In ai, ai-ethics, ai-governance, ai-regulation, ai-safety, llms, neuroscience, open source

RAG Predictive Coding for AI Alignment Against Prompt Injections and Jailbreaks

Post date September 5, 2024
Post author By Stephen
Post categories In ai-alignment, ai-chatbot, ai-chatbot-development, ai-safety, predictive-coding, prompt-injection, retrieval-augmented-generation, rlhf

LLMs: Is NIST’s AI Safety Consortium Relevant Amid California’s SB 1047?

Post date August 29, 2024
Post author By Stephen
Post categories In ai-alignment, ai-governance, ai-regulation, ai-safety, llms, mathematics, neuroscience, nist

AI Business: Enterprise Models for LLMs Profitability

Post date August 20, 2024
Post author By Stephen
Post categories In agi, ai-safety, crm, enterprise-ai, natural-language-processing, robotics, sleep, superintelligence

California AI Safety|EU Regulation: LLMs Emergent Abilities and Existential Threat

Post date August 14, 2024
Post author By Stephen
Post categories In ai-alignment, ai-safety, emergent-abilities, eu-ai-act, existential-risks, llms, sb-1047, superintelligence

Apocalypse of the Gaps

Post date August 12, 2024
Post author By Jesse Wood
Post categories In ai, ai-doomerism, ai-ethics, ai-philosophy, ai-research, ai-safety, artificial-intelligence, millenarianism

AI Safety and Alignment: Could LLMs Be Penalized for Deepfakes and Misinformation?

Post date July 19, 2024
Post author By Stephen
Post categories In agi, ai-alignment, ai-safety, deepfakes, llms, misinformation, neuroscience, superintelligence

Nothing left to load.