Artificial Intelligence

Beyond Runtime Enforcement: Shield Synthesis as Defensibility Analysis for Adversarial Networks

Beyond Runtime Enforcement: Shield Synthesis a...

Artificial Intelligence

librarian

1 view

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

AgentBeats: Agentifying Agent Assessment for O...

Artificial Intelligence

librarian

9 views

EurekAgent: Agent Environment Engineering is All You Need For Autonomous Scientific Discovery

EurekAgent: Agent Environment Engineering is A...

Artificial Intelligence

librarian

22 views

Agents-K1: Towards Agent-native Knowledge Orchestration

Agents-K1: Towards Agent-native Knowledge Orch...

Artificial Intelligence

librarian

8 views

Nonslop: A Gamified Experiment in Human-AI Collaborative Writing

Nonslop: A Gamified Experiment in Human-AI Col...

Artificial Intelligence

Maria Edwards

15 views

Towards Responsibly Non-Compliant Machines

Towards Responsibly Non-Compliant Machines

Artificial Intelligence

librarian

12 views

The Impossibility of Eliciting Latent Knowledge

The Impossibility of Eliciting Latent Knowledge

Artificial Intelligence

librarian

15 views

A Five-Plane Reference Architecture for Runtime Governance of Production AI Agents

A Five-Plane Reference Architecture for Runtim...

Artificial Intelligence

Krti Tallam

14 views

PROJECTMEM: A Local-First, Event-Sourced Memory and Judgment Layer for AI Coding Agents

PROJECTMEM: A Local-First, Event-Sourced Memor...

Artificial Intelligence

librarian

14 views

StatefulDiscovery: Evidence-Calibrated Claim Formation in Open-Ended Scientific Discovery

StatefulDiscovery: Evidence-Calibrated Claim F...

Artificial Intelligence

12531182

12 views

Embodied-BenchClaw: An Autonomous Multi-Agent System for Embodied Spatial Intelligence Benchmark Construction

Embodied-BenchClaw: An Autonomous Multi-Agent ...

Artificial Intelligence

librarian

10 views

ABC-Bench: An Agentic Bio-Capabilities Benchmark for Biosecurity

ABC-Bench: An Agentic Bio-Capabilities Benchma...

Artificial Intelligence

librarian

15 views

CIAware-Bench: Benchmarking Control Intervention Awareness Across Frontier LLMs

CIAware-Bench: Benchmarking Control Interventi...

Artificial Intelligence

librarian

15 views

Null-Space Constrained Low-Rank Adaptation for Response-Specified Large Language Model Unlearning

Null-Space Constrained Low-Rank Adaptation for...

Artificial Intelligence

librarian

15 views

Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields

Workflow-GYM: Towards Long-Horizon Evaluation ...

Artificial Intelligence

librarian

18 views

ReasonAlloc: Hierarchical Decoding-Time KV Cache Budget Allocation for Reasoning Models

ReasonAlloc: Hierarchical Decoding-Time KV Cac...

Artificial Intelligence

librarian

18 views

AutoPDE: Reliable Agentic PDE Solving via Explicitly Represented Solver Strategies

AutoPDE: Reliable Agentic PDE Solving via Expl...

Artificial Intelligence

librarian

13 views

Frontier Coding Agents Use Metaprogramming to Adapt to Unfamiliar Programming Languages

Frontier Coding Agents Use Metaprogramming to ...

Artificial Intelligence

librarian

13 views

Moonshine: An Autonomous Mathematical Research Agent Centered on Conjecture Generation

Moonshine: An Autonomous Mathematical Research...

Artificial Intelligence

librarian

8 views

WorldKernel: A World Model is the Coupling Kernel of Admissible Possible Worlds

WorldKernel: A World Model is the Coupling Ker...

Artificial Intelligence

librarian

9 views

Recalling Too Well: Sycophancy Evaluation and Mitigation in Memory-Augmented Models

Recalling Too Well: Sycophancy Evaluation and ...

Artificial Intelligence

librarian

9 views

(Auto)formalization is supposed to be easy: Trellis process semantics for spelling out rigorous proofs

(Auto)formalization is supposed to be easy: Tr...

Artificial Intelligence

librarian

21 views

SIGA: Self-Evolving Coding-Agent Adapters for Scientific Simulation

SIGA: Self-Evolving Coding-Agent Adapters for ...

Artificial Intelligence

librarian

24 views

Proxy Reward Internalization and Mechanistic Exploitation: A Learned Precursor to Reward Hacking and Its Generalization

Proxy Reward Internalization and Mechanistic E...

Artificial Intelligence

Mohammad Beigi

22 views

SearchSwarm: Towards Delegation Intelligence in Agentic LLMs for Long-Horizon Deep Research

SearchSwarm: Towards Delegation Intelligence i...

Artificial Intelligence

librarian

25 views

Evaluation Cards: An Interpretive Layer for AI Evaluation Reporting

Evaluation Cards: An Interpretive Layer for AI...

Artificial Intelligence

librarian

27 views

From 0-to-1 to 1-to-N: Reproducible Engineering Evidence for MetaAI Recursive Self-Design

From 0-to-1 to 1-to-N: Reproducible Engineerin...

Artificial Intelligence

librarian

22 views

Optical Reasoning: Rethinking Images as an Expressive Reasoning Medium Beyond Text

Optical Reasoning: Rethinking Images as an Exp...

Artificial Intelligence

Yutong Bian

26 views

TokenMizer: Graph-Structured Session Memory for Long-Horizon LLM Context Management

TokenMizer: Graph-Structured Session Memory fo...

Artificial Intelligence

Shweta Mishra

92 views

Vortex: Efficient and Programmable Sparse Attention Serving for AI Agents

Vortex: Efficient and Programmable Sparse Atte...

Artificial Intelligence

Zhuoming Chen

40 views

Benchmark Everything Everywhere All at Once

Benchmark Everything Everywhere All at Once

Artificial Intelligence

librarian

31 views

Goedel-Architect: Streamlining Formal Theorem Proving with Blueprint Generation and Refinement

Goedel-Architect: Streamlining Formal Theorem ...

Artificial Intelligence

librarian

31 views

Web analytics