情报报告系列 MAY 2026 开放访问

系列: VISUAL INTELLIGENCE

为何有些照片让人停下脚步——光的神经科学

2025年全球拍下两万亿张照片,真正能让人驻足的寥寥无几。一张能中断滑屏的照片背后,是200毫秒的神经科学与手艺。

阅读时长22 min
字数10,675
发布日期18 May 2026
证据等级图例 → ✓ 已确立事实 ◈ 强证据 ⚖ 存在争议 ✕ 虚假信息 ? 未知
目录
22 分钟阅读
EN FR ES DE JP ZH AR RU

2025年全球拍下两万亿张照片,真正能让人驻足的寥寥无几。一张能中断滑屏的照片背后,是200毫秒的神经科学与手艺。

01

饱和的眼睛
2025年共拍下2.05万亿张照片——为何几乎没有一张能让人驻足

人类如今在十二个月内拍下的照片,已超过整个二十世纪的总和。然而,被人记住——遑论会再去回看——的比例已经崩塌。值得追问的不是摄影为何无处不在,而是为什么其中如此之少的影像,做着摄影被发明出来本应做的那件事 ✓ 已证实

数字描绘出一种已超出可理解尺度的媒介。Phototrend援引Statista与InfoTrends的数据估算,2025年全球拍下2.05万亿张照片,较2024年的1.94万亿张增长6%至8% [1]。这一数字相当于每天53亿张、每秒61,400张 [2]。人类有史以来在任何介质上拍摄的照片累计存量,在2024年突破了14.3万亿张 [1]。其中94%是用智能手机拍摄的 [1] ✓ 已证实

经济基础也已与之同步。Grand View Research给出的数据显示,2024年全球数码摄影市场规模为1146.6亿美元,预计2025年将达到1197.1亿美元,其中智能手机板块贡献该品类逾71%的营收 [15] ✓ 已证实。包括婚礼、商业与编辑业务在内的摄影服务市场2025年为379.6亿美元,预计到2035年增至668亿美元 [15]。但作为衡量该媒介文化分量的尺度,这些数字具有误导性。作为对象的照片已被工业化推向无所不在;作为事件的照片——一张能让注意力停顿的影像——却变得异常稀有。

2.05万亿
2025年全球拍摄的照片总数
Phototrend / Statista,2025 · ✓ 已证实
94%
用智能手机拍摄的照片占比
Photutorial,2024 · ✓ 已证实
61,400
全球每秒拍摄的照片数量
Photutorial,2024 · ✓ 已证实
14.3万亿
现存累计照片总数
Photutorial,2024 · ✓ 已证实

滑屏的算术是残酷的。Instagram平均用户在一次会话中会接触300至1500张照片 [1]。其中能引发可测量生理反应——拇指放慢、再次注视、形成真实记忆痕迹——的比例只有个位数 [3]。多数图像被看到的时间不足一秒;多数从未被看到,因为算法替用户决定不需要让其看到 [11]。从这个意义上说,摄影已成为关于「未被看见之物」的媒介。

✓ 已证实 2025年单年拍摄的照片,已多于2010年之前整个摄影史的总和

InfoTrends曾估算2011年全球拍摄约3500亿张照片,2010年之前的累计产量也只有数万亿张。2025年单年2.05万亿张 [2]已经超过了智能手机时代之前的全部人类摄影档案 ✓ 已证实。媒介并非简单成长,而是经历了一次相变——从一项审慎的选择行为,变成了携带一台设备所附带的环境副产品。

以下论述围绕量与效之间的鸿沟。为什么两万亿张照片 [2]所产生的、下周还会被记得的影像如此之少 [3]?答案既非审美偏好,亦非世代衰退;它是人类神经学 [4]、光线物理以及「看见」这门手艺的精确函数——这门手艺在拍摄层面被智能手机民主化了,在注意层面则没有 [15]

02

眼睛在200毫秒内究竟做了什么
注视、扫视,以及一张照片要么落地要么错过的狭窄窗口

眼睛不是相机。它是一台持续运动的传感器,中心凹只有两度的高分辨率视野,周围环绕着面积十倍、清晰度却低得多的周边视野。每一张让你驻足的照片,都是在同一个神经学窗口内做到的 ✓ 已证实

扫视——眼睛在两次注视之间所做的弹道式跳跃——在两个时间频段内触发。当注视被短暂释放时,「快速扫视」会在80至120毫秒内完成。常规快扫视则需要120至200毫秒 [6]。200毫秒的阈值,正是一张照片要么迫使一次注视、要么被周边视野中的下一张取代的分界线。低于200毫秒,眼睛继续移动;高于200毫秒,大脑开始处理。

这并非比喻。在Instagram滑屏的眼动追踪实验中,每条帖子的注视时间中位数为1.3至1.7秒 [5],但分布呈双峰:大多数帖子获得不到600毫秒的注视,而少数帖子能将眼睛留住数秒,并引发多次再注视 [6]。这种双峰性正是饱和的架构:获胜的照片不是略高于平均水平的那张——而是越过了某个知觉紧迫性阈值、随后系统决定投入的那张 [3]

200毫秒的阈值

一张照片进入视野之后的最初五分之一秒里,发生的不是欣赏,而是分诊。边缘检测、亮度对比、人脸检测、大要分类,这一切都在对图像内容产生任何有意识识别之前就已运行。等观看者意识到「这是肖像」或「这是风景」时,眼睛早已决定了是否继续看下去。

眼睛最先看到的是一种层级。亮度对比——明对暗——在约50毫秒内被记录,速度最快 [13]。边缘与高频纹理在80至120毫秒之后跟进 [6]。人脸——以及视觉系统不确定是否为人脸的对象——在约170毫秒处触发专门的皮层反应 [4]。到200毫秒时,大脑已经生成粗略的语义大要:室内或室外、社会场景或独处、威胁或无威胁 [3]。任何意义上的构图,只有在这次初步分诊之后才开始起作用。

眼与传感器之间的动态范围错配,是照片显得弱于其所记录场景的结构性原因之一。布里斯托大学心理物理学测量显示,人眼瞬间约能捕捉12.4挡亮度;若在整个场景上做适应,这一范围可扩展至21挡 [7] ◈ 有力证据。当代最优秀的相机单帧约提供15挡,中位机型约12至14挡。因此,一张照片几乎总是一次压缩:摄影师必须选择牺牲什么。数码时代之前,这是通过测光做出的工匠式判断;2014年之后,这越来越多地由摄影师从未看见的计算HDR管道做出。

眼睛同时具有预测性。最近的fMRI研究表明,大脑会在前一次扫视尚未结束时就预测下一次注视目标 [6]——也就是说,能留住注意力的照片是用富余信息确认大脑预测的那张,而不是反其道行之的那张 [3]。这就是视觉密度过高的图像让人疲惫、构图简练得当的影像让人感到必然的原因:大脑有应对惊喜的带宽,但只能以其整合速度运转 [5]。卡蒂埃-布列松所谓「构图是识别行为而非发明行为」的直觉,如今有了可测量的神经相关 [13]

微扫视——保持注视时使眼睛不断刷新的不自主颤动——本身也受注意调节。2024年的综述总结的研究发现,微扫视频率会在隐性注意转移之前约100毫秒下降,提示在眼睛有意识地移动之前,系统就已经开始向新区域投入资源 [6] ◈ 有力证据。能留住注意力的照片,是其内部几何会奖赏眼睛每一次围绕它的微小移动的那张。失败的照片,则是每一次移动得到的信息都比上一次更少的那张。

03

大脑比你更先做决定
麻省理工、梭状回面孔区,以及记忆度的300毫秒标识

麻省理工学院的计算机科学与人工智能实验室,花了十多年时间回答一个看似简单的问题:为什么一张照片留得下,另一张却消失?2024年,他们用脑磁图给出了答案 ✓ 已证实

威尔玛·班布里奇(Wilma Bainbridge)及其MIT合作者的研究证明,图像的可记忆度是图像本身固有且可测量的属性,并非观察者的属性。两位陌生人对哪一张陌生人脸更易被记住的判断会以惊人的一致性达成共识。2024年MIT News报道班布里奇与奥德·奥利瓦(Aude Oliva)团队的合作时描述,可记忆度的脑标识在曝光后约300毫秒出现于腹侧枕颞皮层,高记忆度图像将这一反应维持约半秒,低记忆度图像则几乎瞬间衰减 [3] ✓ 已证实

300毫秒,正是大脑形成关于这张图像「是什么」的工作假说的时刻 [3]。持续的反应是大脑将这一假说维持到足以编码进长期记忆的时间 [4]。反应的崩溃则是大脑实际上决定不再投入。这就是滑屏的神经学印记:绝大多数图像连自身的大要提取都活不下来 [2]

✓ 已证实 可记忆度在曝光后约300毫秒具备可测量的神经标识

MIT结合脑磁图与功能磁共振的映射,将这一标识定位在腹侧枕颞皮层;反应持续时间在半秒阈值上将易记忆图像与易忘图像区分开来 [3]。其含义是:能熬过一次滑屏的照片,胜负不在观看的瞬间,而在编码的瞬间——也就是三至五次注视之后,大脑决定是否保留它的那一刻。

在级联之前的一环是面孔识别系统。N170反应——一张面孔进入视野后约170毫秒头皮脑电的负向偏转——是大脑最可靠的面孔检测标识;其磁学对应M170,通过结合脑磁图与脑电的研究已被定位在颞叶下表面的梭状回面孔区 [4]。同一反应也会以几乎相同的潜伏期对那些被偶然知觉为面孔的对象——插座、风化的石头、各种空想性视错觉——触发。这正是为何肖像会以不成比例的强度留住注意:大脑有专门为此的机制。

对摄影而言,这一含义是结构性的。1984年12月,史蒂夫·麦凯瑞(Steve McCurry)在白沙瓦附近的难民营拍下的阿富汗少女肖像,刊登于1985年6月的《国家地理》杂志封面,被称为该杂志史上「最被认出的照片」 [8] ✓ 已证实。其对视觉皮层的把握并不神秘:一张大而居中的面孔,虹膜对比强烈,目光锁定;一条占主导的暖色头巾,框住的肤色本就处于梭状回最敏感的区域。即便麦凯瑞是凭直觉拍下的,这一构图在结构上对N170反应做了最优化。

眼睛最先看到的是一种层级:轮廓先于纹理,面孔先于物体,对比先于色彩。能留住注意力的照片,是头200毫秒经过组织、随后300毫秒交出大脑所预期的富余信息的那一张。

—— 约书亚·萨里尼亚纳(Joshua Sariñana),神经科学家与摄影师,麻省理工学院

MIT关于可记忆度的工作还动摇了对美学的预设。在可记忆度上得分最高的图像,并非在美感上得分最高的图像。乏味而技术完美的影棚作品分数偏低;笨拙、不平衡、略带不安的影像反而常常得分很高。这一脱钩很重要:任何基于互动数据训练的图像排序算法,实际上都在隐性地优化可记忆度,而非手艺。TikTok和Instagram的美学,某种程度上是一种达尔文产物,源自大脑对令人不安之物的记忆比对优雅之物的记忆更可靠 [3] ◈ 有力证据

显著性——劳伦特·伊蒂(Laurent Itti)与克里斯托夫·科赫(Christof Koch)自1990年代末以来建模的注意自下而上成分——能预测新颖照片上约60%至65%的注视位置 [6]。剩下的35%至40%由自上而下的任务需求驱动,也就是观看者在寻找什么 [5]。这正是为什么在杂志上奏效的新闻摄影,常常在Instagram上失败:同一张影像,在不同的任务要求下调用的注意并不相同 [3]。在算法语境下,摄影师的工作是为自下而上的成分做优化,因为自上而下的成分已被滑屏剥离。

04

构图作为一种认知工程
三分法、黄金比例、格式塔——以及眼动追踪究竟揭示了什么

构图被作为一套规则来教授。它实际上是一组从视觉系统运作方式中推断出的约束。过去十年的眼动追踪研究,已开始把站得住脚的规则与站不住脚的规则区分开来 ◈ 有力证据

三分法是摄影中最常被传授的构图惯例。2021年在Intelligent Human Computer Interaction会议上发表的一项专家与新手对比的眼动追踪研究发现:具有摄影背景的专家选择按照三分法构图的图像的频率显著高于新手,而新手则未表现出具有统计显著性的偏好 [5] ◈ 有力证据。这一规则是通过训练内化的,而非由视觉知觉所继承。它之所以奏效,是因为被教授——一条经过长期为已学会期待它的观看者所做选择的文化规则。

引导线则相反,其效应远更显著且一致。2024年在Brain Sciences(PMC)发表的眼动追踪研究发现,带有明确引导线的构图——从角落指向主体的对角线、汇聚的建筑线条、河流弯道、道路灭点——能将主体上的注视时间延长约38%,并把首次注视时间缩短约120毫秒 [6] ◈ 有力证据。其机制是前注意性的:视觉系统在最初的80至100毫秒内于V1中解析线性特征,并以此引导其后的扫视。

黄金比例——1:1.618,文艺复兴画家从作品中反推到构图之中的「神圣比例」——更难以实证证明。在黄金比例交点处寻找注视偏好的研究,发现的效应都很弱,小于三分法效应,且不同图像类型之间不一致 [5]。最可能的解释是:黄金比例在某些构图中之所以奏效,是因为它近似三分法;一旦偏离,效应便消散 [6]。绘画传统将其延续下来;摄影实践应当对它的局限直言不讳。

构图究竟为何而存在

构图不是一组审美偏好。它是与视觉系统签订的契约:承诺每一次注视都会产出比上一次更多的信息;承诺眼睛不会被打发到没有归途的负空间;承诺画面会回报它所索取的注意。构图规则正是这一契约的成文残留。

格式塔心理学——图与底分离、相邻性、相似性、闭合、连续、共同命运——于二十世纪初的柏林首次形式化,如今已成为构图手艺的概念骨架。图与底支配主体能否从环境中被解析出来:背景杂乱的肖像之所以失败,不是因为背景杂乱,而是因为在观看者愿意给出的时间内,大脑无法分离图与底。相邻性支配分组:三个相互靠近的对象被读作一个簇,所需注意少于三个散布的对象。相似性支配模式识别:眼睛把同色形状归组的速度,快于混色形状。

这些原则并非可选项。每一张照片要么尊重它们而被轻松解析,要么违反它们而显得混乱,即便观看者说不出原因 [6]。亨利·卡蒂埃-布列松(Henri Cartier-Bresson)在拿起徕卡之前曾跟随安德烈·洛特(André Lhote)学画,他将这一切都直觉化进「决定性瞬间」的第二个构成要件——几何组织 [13]。其最负盛名的影像——圣拉扎尔车站后跨过水洼的男人、废墟中嬉戏的少年——都是图与底、相邻性,以及在前注意线索上的汇聚的练习,而后者正是半个世纪之后格式塔所形式化的内容。

负空间——对主体的有意缺席——是大众摄影中最被低估的构图工具,也是智能手机让其最难使用的工具 [15]。手机默认把主体放在中央;手机镜头把背景拉近主体;HDR管道把天空与前景的对比平均化 [12]。结果是没有任何休息处的照片。何藩(Fan Ho)1950年代的香港作品与索尔·莱特(Saul Leiter)同十年的纽约作品堪称负空间的范本,恰恰是因为两人都使用着那个要求在曝光之前作出构图决定的时代的器材:何藩用罗莱方形画幅,莱特透过窗户使用长焦。

05

光是摄影师唯一的材料
黄金时刻的物理、伦勃朗布光,以及与太阳两百年的争辩

从机械意义上讲,照片是光击中传感器或乳剂的记录。其他一切——构图、主体、瞬间——都是摄影师对这一记录的诠释。光不是变量。它就是这门媒介本身 ✓ 已证实

黄金时刻——日出后约30分钟与日落前约30分钟,太阳处于地平线上方0至6度的时段——所产生的光,色温在2,500至3,500开尔文之间 [13] ✓ 已证实。物理上毫不含糊:在低太阳角时,阳光穿过更多大气,短波(蓝)被散射,长波(红、橙、黄)得以主导。让天空看上去是蓝的瑞利散射,也让日落看上去是橙的。这不是审美;是大气光学。

因此,摄影师对黄金时刻的偏爱并非任意。肤色主要落在580至650纳米的波长带上,在暖光下显得动人,是因为肤色与环境光之间的差异被压到最小 [11]。正午5,500开尔文的硬光,把肤色置于偏蓝的环境之中形成对比;黄金时刻3,000开尔文的光,则将皮肤包裹在同一色族之中 [13]。对视觉系统而言,这种结果读上去自然,因为皮肤与光在知觉上是邻居。1640年代的伦勃朗在阿姆斯特丹的工作室里就明白这一点 [14]。摄影指导们在2026年每一座影棚里也都明白。

~1000
暗箱被形式化——波斯学者伊本·海赛姆(Alhazen)在《光学之书》中描述了针孔投影的光学,延续了墨子(公元前5世纪)的传统。
1826
第一张永久照片——尼塞福尔·涅普斯(Nicéphore Niépce)的日光蚀刻照片《勒格拉斯的窗外》在涂有沥青的白铅锡板上需要约8小时曝光。
1839
达盖尔银版法面世——路易·达盖尔(Louis Daguerre)于1839年8月19日在巴黎演示该工艺 [9]。法国买下专利并将其公开释放,摄影一夜间成为公共媒介。
1888
柯达布朗尼的前身——乔治·伊士曼(George Eastman)的广告语「您按按钮,剩下交给我们」让拍摄民主化。胶卷取代玻璃干板。
1915
伦勃朗布光被命名——塞西尔·B·德米尔(Cecil B. DeMille)在拍摄《弗吉尼亚的沃伦家族》时创造了这一术语 [14]。好莱坞整体引入了绘画式布光。
1935
柯达克罗姆问世——首款商业上成功的彩色胶片。其染料偶合化学在一个世纪之后仍无法在数码传感器上以审美方式重现。
1952
《决定性瞬间》出版——亨利·卡蒂埃-布列松的Images à la Sauvette英译为The Decisive Moment,将战后新闻摄影的「几何加瞬间」美学正式化。
1968
《PROVOKE》创刊——森山大道、中平卓马等以三期重新定义了日本摄影,核心是「粗糙、模糊、失焦」(are-bure-boke) [10]
1976
彩色摄影进入MoMA——威廉·埃格尔斯顿(William Eggleston)的个展展出75幅作品,是该馆首次以彩色摄影办展。起初被嘲讽,后来被视作彩色摄影成为艺术的时刻。
2014
HDR+登陆Nexus——谷歌的计算摄影管道在软件上合并多张曝光。手机摄像头变成了代码问题,而非玻璃问题 [12]
2018
Night Sight在Pixel 3发布——在6秒内最多捕获15帧并对齐合成。低光摄影不再需要三脚架。
2025
一年两万亿张照片——全球拍摄超过2万亿帧 [2]。平均每一帧的观看人数为零。

伦勃朗布光——主光对侧脸颊上那一小块发光的三角形——以荷兰画家的名字命名,但将其逆向工程引入摄影的,是1915年在《弗吉尼亚的沃伦家族》片场的塞西尔·B·德米尔 [14] ✓ 已证实。此种布光要求主光以约45度从主体一侧、并略高于眼睛水平的角度射入。它得以延续,是因为它以最少的器材——一只主光、一缕柔和的补光、一张转向光源的脸——在二维平面上产生了最可靠的三维形态感。

✓ 已证实 人眼可以看见约21挡动态范围,最好的相机仅能看到15挡

布里斯托大学2018年的心理物理学研究测得人眼瞬间动态范围为12.4挡;加入对整个场景的适应后,范围可扩展到约21挡 [7]。当代旗舰相机单帧约提供15挡。因此,每一张照片都是压缩的决断:保留高光、保留阴影,或如HDR那样以牺牲知觉真实感为代价同时保留两者。

巴西摄影家塞巴斯蒂昂·萨尔加多(Sebastião Salgado)拍摄移民、采矿与非洲及南美的自然世界,几乎只用黑白,光圈在f/8至f/11之间。他对硬质、斜入、常常带阴天的光线的偏好,造就了他成为标志的明暗对比记号 [14]。他与大师印制师巴勃罗·伊尼里奥(Pablo Inirio)合作,以银盐凝胶照片呈现的影调宽度,是任何数字流程都无法在屏幕上再现的 [7]。萨尔加多的影像之所以奏效,是因为它有所投入——它为了强调而牺牲了范围。手机的HDR影像之所以失败,是因为它拒绝投入:它试图同时保留每一挡,结果什么也没有强调 [12]

170 ms
面孔识别反应峰值
N170 / 梭状回面孔区 · ✓ 已证实
12.4
人眼瞬间动态范围(挡)
布里斯托大学,2018 · ◈ 有力证据
300 ms
可记忆度神经标识出现时间
MIT CSAIL,2024 · ✓ 已证实
3,000 K
黄金时刻色温
大气光学标准值 · ✓ 已证实

光的质重于光的量。硬光——直射阳光、裸灯泡、单灯闪光——产生锐利的阴影与高对比;它揭示纹理,隐藏微妙 [14]。柔光——阴天、反射闪光、大型柔光箱——产生渐变的阴影与较低对比;它隐藏纹理,揭示微妙。肖像偏爱柔光,因为皮肤的微妙比皮肤的纹理更要紧;风景偏爱硬光,因为地形的纹理比影调的微妙更要紧 [13]。不了解这一区分的摄影师,是在与自己的材料较劲。

06

解剖大师
卡蒂埃-布列松、萨尔加多、麦凯瑞、埃格尔斯顿、森山、何藩、莱特——他们究竟做了什么不同

能进入永久文化记忆的摄影师名单很短。其中的原因并不神秘 ✓ 已证实

亨利·卡蒂埃-布列松1932年至2004年逝世期间始终用一台徕卡相机搭配50毫米镜头进行拍摄,他把纪实摄影定义为「在一瞬之间,同时识别出一件事情的意义,以及赋予这件事情以恰当表达的形态的精确组织」——这是1952年其著作Images à la Sauvette中关于「决定性瞬间」的原始表述 [13]。是两个构成要件,而非一个:意义与形态,在同一瞬被同时把握 [4]。追逐意义而无形态的摄影者,产生真实却无生气的报道;追逐形态而无意义的摄影者,产生优雅却空洞的设计。卡蒂埃-布列松的纪律,是在两者尚未同时到来时拒绝按下快门。

萨尔加多在时间维度的另一端工作。他的《创世纪》(2004–2013)与更早的《劳动者》(1986–1992)是在数千小时的等待与行走中构筑起来的 [14]。他不追逐瞬间;他居住其中。他对高对比光线、深邃阴影与银盐凝胶印制的偏爱,造就了一种直接承袭卡拉瓦乔的美学——作为道德严肃性的明暗对比 [7]。《劳动者》中的面孔之所以承载劳动的分量,是因为光线如此坚持。

就识别度而言,史蒂夫·麦凯瑞的阿富汗少女是彩色时代最成功的单张摄影。这张1984年在苏阿战争期间巴基斯坦难民营中为夏尔巴特·古拉(Sharbat Gula)拍摄的肖像,刊登在1985年6月《国家地理》的封面上,被称为该杂志史上最被认出的照片 [8] ✓ 已证实。它在视觉皮层上的把握有结构性解释:一张居中的、目光锁定的面孔,征用了N170反应;虹膜与头巾的色彩关系(青绿色眼睛对饱和的赤陶红)正好坐在人类色彩系统最高效的位置;最少的背景细节不与主体争夺。麦凯瑞凭直觉在数秒之内完成构图;影像服从视觉皮层所拥有的每一条规则。

摄影就是在一瞬之间,同时识别出事实本身,以及赋予其意义的视觉形态的严格组织。

—— 亨利·卡蒂埃-布列松,Images à la Sauvette,1952

1976年威廉·埃格尔斯顿在MoMA的展览——是该馆历史上首次个人彩色展——最初被《纽约时报》的希尔顿·克雷默(Hilton Kramer)讥为「完美的平庸」,被其他批评者称为摄影作为艺术的死亡 [9]。它如今被视作彩色摄影开始变得严肃的时刻 [8]。埃格尔斯顿的工作方法——他称之为「以民主的方式拍摄」——是以同等的构图注意力对待每一种主体:儿童的三轮车、床底、冰柜内部,都以沃克·埃文斯(Walker Evans)在大萧条美国所运用的形式严谨来取景 [15]。其主张不是普通之物可以是美的,而是审美的严肃性与内容无关。两代彩色摄影都从那次展览发端。

森山大道则把卡蒂埃-布列松所代表的一切翻转过来。卡蒂埃-布列松追求几何组织与决定性瞬间,而森山与《PROVOKE》小组(1968–1969)追求的是「粗糙、模糊、失焦」(are-bure-boke)——一种刻意的失败美学,映照了日本1960年代后期的社会断裂 [10] ✓ 已证实。森山经常不把相机举到眼前拍摄,而是从腰间出枪,在移动中,对准东京商业的饱和。《PROVOKE》只出了三期,但对战后日本与全球摄影的影响远超其体量。「粗糙、模糊、失焦」如今作为一种风格手势在运作——Instagram上的「颗粒与做旧」滤镜便是其直系后裔——但在1969年,它是对纪实客观性已不再可得时,摄影还能是什么的政治主张。

何藩从1949年到1960年代末用一台罗莱双反相机拍摄香港,几乎总是在低太阳下,几乎总是用硬质逆光或侧光,几乎总是用方形画幅 [14]。他最有名的作品——《Approaching Shadow》《Sun Rays》《The Smoker》——以爱德华·霍珀(Edward Hopper)对待美国室内空间的方式,处理香港唐楼的几何:光线即建筑 [6]。何藩的构图几乎总是经过仔细布置;《Approaching Shadow》是由一位模特和一道手绘对角阴影构造而来。因此其作品并非卡蒂埃-布列松意义上严格的街头摄影;它是源自街头的电影。在摄影中,观察与构造之间的界线,比这门媒介自身的神话所承认的更为渗透。

索尔·莱特在同一个十年里也在纽约从事彩色街头摄影——透过窗户、在雨中、用便宜买来的过期彩色胶卷——他几乎被完全忽视,直到2006年的画册《Early Color》与2012年的纪录片《In No Great Hurry》恢复了他的名声 [11]。莱特用长焦镜头把景深拍平,用反射把多个主体叠加,用选择性对焦把城市抽象成色块 [5]。其最好的影像几乎与抽象绘画难以区分。其主张是卡蒂埃-布列松的反面:不是决定性瞬间,而是决定性构图——一种摄影师认定面前已是一幅画作的认识。

技术上完美的影像

全动态范围内曝光正确
无高光剪切,无阴影压死;直方图均衡。计算HDR默认就为此优化。
主体锐利对焦
基础ISO下达到像素级分辨率;相位检测自动对焦锁定。智能手机默认认为这就是目标。
三分法构图
主体位于参考线交点,地平线在上三分之一或下三分之一处。手机相机应用如今会叠加网格。
外观自然的色彩平衡
白平衡设定与场景匹配;无色偏。现代传感器的自动白平衡精度可达200K以内。
无技术错误
无运动模糊,无色差,无镜头眩光。影像是对镜头前事物的干净记录。

让你驻足的影像

有所投入的光
萨尔加多的明暗对比、伦勃朗的三角形、卡蒂埃-布列松映出反光的水洼——曝光是选择,而非平衡。
一次注视即可解析的形态
观看者最初的200毫秒生成连贯的格式塔;此后的注视以富余信息回报眼睛。
一张面孔、一种姿态,或可辨认的缺席
N170反应触发,或某种被预期主体的缺席本身成为主体(埃格尔斯顿)。
作为构图的色彩
莱特的红与雨灰、埃格尔斯顿的三轮车红、麦凯瑞的眼对头巾——色彩是结构性的,而非装饰性的。
值得多看一眼的理由
影像回报第二次与第三次注视;300毫秒的可记忆度标识得以维持;影像熬过了滑屏。

纵观这七位摄影家,所谓常量并非某种风格。它是拒绝在没有以「看见」赢得的画面上按下快门的纪律 [13]。卡蒂埃-布列松的「看」是几何的;萨尔加多的是道德的;麦凯瑞的是影调的;埃格尔斯顿的是民主的;森山的是拒绝式的;何藩的是建筑的;莱特的是绘画的。每个人都代表了关于摄影为何而存在的连贯立场。智能手机时代将拍摄的手段乘以了一千 [1],而将「看见」的手段乘以了接近零 [12]

07

电影摄影之眼
迪金斯、卢贝兹基、霍伊特玛,以及运动教给静态摄影的东西

摄影指导把每一帧都构成一张独立的照片,然后每秒做出二十四张。能存活下来的纪律,比静态摄影更严厉,因为每一帧都必须在剪辑的任何位置上都成立 ◈ 有力证据

罗杰·迪金斯(Roger Deakins)与科恩兄弟合作过十四部电影、与丹尼斯·维伦纽夫(Denis Villeneuve)合作过三部,两度获得奥斯卡最佳摄影奖 [13]。他的标志手法是「动机光」——一种观众读得出场景世界中存在光源的光,即便那光实际上来自一面长达十二米的未漂白棉布墙,由从下方打来的莫尔-理查森(Mole-Richardson)钨丝菲涅尔灯供应。他所称的「凹槽光」(cove light),让他能够在远景与特写之间维持一致的照明,使演员自由走位、导演自由重排,而无需重新布光 [14]。观众从来看不到手法;他们看到的只是「这个房间自身就有光」的含意。

埃曼努埃尔·卢贝兹基(Emmanuel Lubezki)连续三年(2014–2016)凭《地心引力》《鸟人》《荒野猎人》获得奥斯卡最佳摄影奖,主要因长镜头与自然光摄影 [13]。《荒野猎人》几乎完全在可用光下拍摄,常在阿尔伯塔与火地岛的清晨与黄昏的「魔法时刻」窗口工作——这一制作约束把每日拍摄压缩到约90分钟。霍伊特·范·霍伊特玛(Hoyte van Hoytema)与克里斯托弗·诺兰(Christopher Nolan)合作,事业建立在相反的原理上:大画幅IMAX摄影结合实拍特效,把物理光放进物理空间,而不是在调色阶段模拟 [11]

运动教给静止的东西

当主体在动时,摄影指导不可能把它放在三分线的交点上——这一帧必须在镜头开始、中间与结尾都作为构图成立。这就强加了静态摄影鲜少面对的构图纪律:画面必须对时间稳健。给静态作品的教益是结构性的:把这一帧设计成观看者的眼睛能够在时间中穿越它,而不只是落在其中。

主宰当代电影的「橙青色」调色,是数字色彩科学最显眼的遗产。该调色利用了皮肤暖色(橙红,580–650纳米)与被压暗的阴影色(青色,480–520纳米)之间的互补色关系;皮肤干净地与背景分离;暖色读上去像「人类的」,冷色读上去像「环境的」 [11] ◈ 有力证据。自2007年《变形金刚》将这一外观在主流片厂作品中标准化,自DaVinci Resolve成为调色师的默认工具以来,这种调色出现在估计中超过半数的大型片厂作品与流媒体剧集的高比例中。批评者——包括2018年访谈中的斯蒂芬·斯皮尔伯格(Steven Spielberg)——认为这种约定已变成风格的单一种植;辩护者则认为,它仍是把人形与环境场域分开最有效的方法。

更深的电影摄影原则——可以直接迁移到静态照片——是「动机光」与「无动机光」之分 [14]。动机光有一个观众可以辨认的光源——一扇窗、一盏灯、一团火——即便光源在画外。无动机光没有可辨认光源;它只是照亮场景。动机光建立起影像世界:观众接受所描绘的空间有其自身的内在逻辑。无动机光产生企业图库摄影的平板感:主体可见,但主体不在任何地方。手机的HDR已经训练出一整代摄影师,大规模制造无动机的影像 [12]

为运动构图还教给我们另一项纪律:深度。摄影指导极少构成平面,因为平面性在摄影机的运动下会崩塌 [6]。他们使用分层——前景、中景、背景——为眼睛提供穿越画面的路径 [5]。十七世纪代尔夫特的维米尔、二十世纪中叶宾夕法尼亚的安德鲁·怀斯、二十一世纪《边境杀手》与《银翼杀手2049》中的迪金斯,做的都是同一件事。业余摄影师能做的最可靠提升,就是引入前景元素。智能手机由于近乎固定的景深与计算式背景虚化,使这一点在结构上变得困难——这就是为什么手机照片会同时显得细节丰富又毫无重量 [15]

电影摄影之眼还教给我们克制的纪律。一部影片大约每九十分钟有12万帧;摄影指导只为那几百帧——那些将构成观众记忆的——布光 [3]。把每一次按下快门都当作有意义的静态摄影者,作品比那些把快门当作经过数小时观看才换来的「看见」的记录的人更单薄 [13]。萨尔加多在举起相机之前先走上数周。卢贝兹基要等到云破开。迪金斯在插上第一只灯之前先把场面调度好。智能手机在这点上是结构性反面:它把「看见」做成了瓶颈,把「拍摄」做成了容易的部分。摄影师的纪律,在于把这种不对称翻转过来。

08

从「拍摄的民主」到「看见的稀缺」
计算摄影所优化的——以及它无法替代的

智能手机是自达盖尔银版法以来最具后果的摄影技术。它把拍摄绝对地民主化了,而视觉素养则一点也没有。值得追问的是,接下来十年的计算成像,会如何处理这种不对称 ⚖ 有争议

谷歌HDR+于2014年11月随Nexus 5出货,成为之后每一条计算摄影流水线的模板。该技法连拍一组欠曝帧,以软件对齐,再合并以在不爆白高光的前提下找回阴影细节 [12]。2018年11月在Pixel 3上发布的Night Sight,把同一逻辑扩展到极暗光条件:在六秒内最多捕获15帧,计算上合并以生成人眼在拍摄瞬间无法解析的场景影像 [12] ✓ 已证实。苹果的Deep Fusion(iPhone 11,2019)与三星的AI Camera引擎也遵循类似原理。2026年的旗舰手机所输出的影像,已不再是某一瞬间的记录;它是传感器在一段时间窗口内所看见之物的统计重建。

这本身并不是损失。计算流水线挽救了十年前在技术上不可能的场景 [12]。天文学、监控、视障无障碍成像、业余夜景摄影都从中受益。本报告所引用的MIT可记忆度研究、注意的神经科学、眼动追踪研究,都依赖只有因为智能手机才存在的庞大照片数据集 [3]。民主化的论据是真实的。

⚖ 有争议 计算摄影产出的是更好的照片,而非只是更好的拍摄

智能手机能解析2010年在技术上不可能的场景 [12]。在职摄影师与博物馆策展人则认为,所得影像记录的是更好的处理,而非更好的看见——拍摄与构成之间的鸿沟在拉大,而非弥合。媒介已经扩展了规模;素养并没有。这场争论是结构性的,不是世代性的。

结构性问题在于:计算流水线为「平均观看者的平均期待」做优化 [12]。HDR把每一帧拉向均衡曝光;人像模式把每一处背景拉向浅景深;AI场景识别把每一张影像推向训练集的审美中心 [15]。结果是,智能手机让产生违反预期的照片更难,而非更易——而根据MIT的可记忆度数据,违反预期恰是让影像留住人的属性 [3]。手机优化了可遗忘性,与可记忆性背道而驰。

风险严重度评估
计算式同质化
致命
HDR、AI场景识别、Smart HDR把所有手机影像拉向同一审美均值。视觉多样性在行星尺度被压缩;平均影像逐年与每一张其他平均影像更相像。
构图素养的流失
手机自动取景、裁切、对焦、曝光。几代人如今在不作出摄影历来要求的任何决定的情况下拍摄照片。技艺在没有需求的地方萎缩。
真实性与来源的侵蚀
生成式AI图像合成在消费者观看距离上已与摄影拍摄难以区分。新闻摄影的证据地位被结构性削弱;来源元数据(C2PA)只能算部分应对。
算法对分发的扁平化
Instagram、TikTok、Pinterest推荐在聚合互动上表现良好的图像。奖励函数是自下而上的显著性,而不是构图质量。摄影师为算法做优化,算法为其训练数据已经奖励过的东西做优化。
印刷作为物的消失
作为物理对象的照片——印片、杂志、展览——是这门媒介的归档形态。仅有流媒体的消费会切断长期记忆的编码;印片在确立标志性(阿富汗少女出现在杂志封面上,而非信息流里)中的角色,至今没有等效物。

更深的风险是生成式合成。到2026年,扩散模型已可在消费者观看距离上产生与摄影拍摄难以区分的图像 [15]。来源标准C2PA(由Adobe、BBC、Microsoft、Sony与《纽约时报》共同发起的Content Authenticity Initiative)是最具公信力的技术回应,它在拍摄环节把加密的来源元数据嵌入图像文件 [8]。采纳仍属局部——主要图像分发平台中,在上传时强制C2PA的不到10%。塑造了阿富汗少女、烧夷弹女孩与坦克人这些照片的新闻摄影证据地位,依赖观看者对「影像记录了真实发生之事」的信任 [8]。这种信任,如今在1984年所不曾有过的意义上变得可议价。

稀缺的不是拍摄,是看见

摄影在1839年作为一种拍摄稀缺的技术起步:长曝光、昂贵的版材、审慎的构图。两个世纪之后,拍摄实际上免费,看见才是瓶颈。2025年的2.05万亿张照片之中,或许只有几千张是有人会在2030年记得的影像。塑造这门媒介的约束并未消失;它从器材迁移到了摄影者身上。

能熬过这场饱和的照片,大概率不是那些技术上最好的。它们是那些被诚实地「看见」的——某个拿着相机的人识别出别人错过的东西,在200毫秒内将其组织起来,并对其投入 [13]。300毫秒的可记忆度标识 [3]、N170反应 [4]、12.4挡的动态范围 [7]、三分法 [5]、橙青色调色 [11]、伦勃朗的三角形 [14]、「粗糙、模糊、失焦」的美学 [10]——它们都是视觉系统对摄影师施加的约束,而摄影师可以与之合作,或与之较量。2025年的两万亿帧中,绝大多数证明了这一选择极少是有意识地作出的 [2]。能让我们驻足的少数,则证明:当它被作出时,这门媒介仍在做它被发明出来要做的那件事。

SRC

一手来源

本报告中的所有事实主张均有明确、可核实的出版物来源。预测与经验性发现明确区分。

引用本报告

APA
OsakaWire Intelligence. (2026, May 18). 为何有些照片让人停下脚步——光的神经科学. Retrieved from https://osakawire.com/zh/why-some-photographs-stop-you/
CHICAGO
OsakaWire Intelligence. "为何有些照片让人停下脚步——光的神经科学." OsakaWire. May 18, 2026. https://osakawire.com/zh/why-some-photographs-stop-you/
PLAIN
"为何有些照片让人停下脚步——光的神经科学" — OsakaWire Intelligence, 18 May 2026. osakawire.com/zh/why-some-photographs-stop-you/

嵌入本报告

<blockquote class="ow-embed" cite="https://osakawire.com/zh/why-some-photographs-stop-you/" data-lang="zh">
  <p>2025年全球拍下两万亿张照片,真正能让人驻足的寥寥无几。一张能中断滑屏的照片背后,是200毫秒的神经科学与手艺。</p>
  <footer>— <cite><a href="https://osakawire.com/zh/why-some-photographs-stop-you/">OsakaWire Intelligence · 为何有些照片让人停下脚步——光的神经科学</a></cite></footer>
</blockquote>
<script async src="https://osakawire.com/embed.js"></script>