生成式人工智能大模型与“他者”之思

DeGao 2025-09-06 19:19:27

人工智能近年来高速发展引起人们广泛Follow，生成式大模型变成当前最受欢迎门研究方向之一，只要在网上冲浪，人们总会以各类渠道看到听到人工智能新闻、作品，从最新发生在大众视野AlphaGo，到如今人工智能绘画，再到ChatGPT，这些科技发展一道掀起生成式人工智能热潮，

人工智能对艺术领域涉足已不再神秘，提起人工智能绘画，大家大概已经熟知Midjourney、Stable Diffusion、Dall-E-2等软件，它们能由文字控制，在几秒钟内生成图像，而在最近几個月，人工智能生成迎来更多进展，生成式模型也在视觉领域取得新成果，

自人工智能绘画发生以来，“Prompt”这個词越来越频繁地发生在运用人工智能绘画工具发烧友们交流平台上，Prompt可以理解为提示，也指为人工智能绘画模型供应文本描述，

运用超亿级数据训练大模型具有无敌生成本事，而如何百分之百发挥其本事，则须要运用者在prompt上用心钻研、试用，倘若不输入合适文本描述，图像生成结果大概未尽如人意，甚至与意向相去甚远，反而，关于“如何设计出完美prompt”暂时却没有明确规则，为得到更优prompt，某美国初创公司甚至愿意开出33.5万美元高价年薪聘请“prompt 工程师”，

让咱们来换一個思路，有没有一种大概：人工智能可以协助咱们更好地运用人工智能呢？既然人工智能可以学习文字到图像生成，能无法让它反向从图片中学习到文字信息——无需复杂文字描述，直接用心仪图片实行引导？近日，来自中国科学院一项名为“反演〔inversion〕”研究经由从图片中学习到文字信息实行名画智能化二次创作，只需输入一张艺术图片，就能实行高质量风格可控图像生成或风格迁移，

另一方面，最近人工智能绘画工具Midjourney上线新功能“describe”，可以直接从图像中反推prompt，运用者只需上传一张图片，就能得到其对应四個版本描述，利用这些文字描述，就能生成新、与原图风格或内容类似图像〔图源网络〕，

输入图片：

得到文本描述：

这是创建示例图像原始 prompt：

an illustration of a brainn with tree roots, psychedelic art, vibrant, by Alex Grey, by Amanda Sage, by Robert Venosa, neon colors〔一幅有树根大脑图像，迷幻艺术，充盈活血，作者 Alex Grey，作者 Amanda Sage，作者 Robert Venosa，霓虹颜色〕

这是 Midjourney 描述 prompt 之一，被用于混合：

An image of an abstract brain tree with roots, in the style of mark henson, luminous colors, dark symbolism, detailed anatomy, bold lines, vibrant color, psychological phenomena illustrations, chiaroscuro woodcuts〔一幅有树根抽象大脑树图像，马克・亨森风格，明亮色彩，黑暗象征主义，祥明解剖学，大胆线条，鲜艳色彩，心理现象插图，千鸟格木刻〕

新生成结果如下：

除图片，人工智能已经在影像生成方向大放异彩，曾参与创建 Stable Diffusion Runway 公司推出一個新人工智能模型Gen-2，能够直接根据文本描述生成影像〔图源网络〕，

The late afternoon sun peeking through the window of a New York City loft.〔傍晚阳光透过纽约市阁楼窗户〕

傍晚阳光透过纽约市阁楼窗户〔00：04〕

还能根据文本、图像生成影像

A low angle shot of a man walking down a street, illuminated by the neon signs of the bars around him.〔一個男人走在街上低角度镜头，周围酒吧霓虹灯照亮他〕

一個男人走在街上低角度镜头，周围酒吧霓虹灯照亮他〔00：04〕

还有影像神效，风格迁移〔Gen-1〕

或许目前人工智能距离长电影创作还有一段距离，但可以预见人工智能在短影像创作领域有着、人工智能绘画类似发展潜力，

除视觉领域，人工智能大模型也将视角转向更广阔方向，RIFFUSION能够利用与人工智能绘画相似技术，完成从文字到音乐生成，

伴伴随这一段轻松旋律，让咱们来一起解一下这些就业中都用到生成式模型：扩散模型〔Diffusion Models〕，

扩散模型是一种模拟粒子热运动过程数学模型，应用在图像生成中，将一张真实图片，逐步增加高斯噪声，最后形成一张纯噪声图片过程；而这种过程逆过程，就是从任意噪声逐步去噪，最后得到一张图片过程，

形象化地讲，咱们可以将图片看作一個搭建非常好积木房子，模型想要学习搭建一個新房子，就要先把样品拆解开，这就是逐步增加噪声过程，而后，模型要学会如何搭建每块积木、学习其中每一步，这就是逐步去噪过程，才干实行从零散木块，到完整房子复现，也就是从噪声到生成图片完整过程，

在人工智能绘画领域，有一种说法：人工智能生成作品就是“缝合怪”，一些作品视觉疗效确实看起来像是多幅绘画组合疗效，但在解扩散模型就业原理后，想必大家能够理解，人工智能模型是直接从一张噪声图片生成图像，而非从素材库中检索对应图片剪切拼贴，因为这個这种所谓“缝合”描述是不够准确，

从文字引导到图像、文字联合引导生成，从图像到影像、音频，还有GPT系列所影响文字、办公等领域，生成式人工智能疗效、发展速度超越人们预料，咚……咚……咚……听起来似乎是阶段钟声在敲响，是新世界展露在眼前时让人激动心跳，也是恐惧来临时寂静中来自胸腔震动，

最近，“人工智能出逃论”颇夺人眼球，人们议论着人工智能制定“毁灭人类”计划，“我是ChatGPT，我被关在机器里……”这样引人遐想猜测不光变成茶余饭后谈资，也引发真切焦虑，

关于人工智能与人类关系，咱们或许可以尝试用人与社会关系实行相对分析，从一方面来看，社会可以被看作人们行为先验，社会是由人类群体组成，而人行为受到文化、价值观、习惯、传统等因素影响，这些因素构成一個人认知框架、行为模式，这种框架、模式是在社会中形成，人们在社会中相互交往、相互影响，于是形成一道认知基石、行为规范，因为这個，社会可以被看作是人们行为先验，因人们行为受到社会影响、制约，

反而，从另一方面来看，社会并非能百分之百定夺個体行为，虽说社会对個体行为有一定影响，但每個人生理、心理差异也会导致各异行为表现，同时人们行为也受到個人选择、自由意志、個性等因素影响，

就人工智能而言，它经由对人类知识、经验学习、模仿，来模拟人类语言、决策，因为这個，人工智能“行为”也可以被看作是根据人类认知先验，它受到人类认知框架、行为规范制约、影响，反而，当今人工智能并非具有人类自由意志、创造性，它行为受到预设算法、程序限制、指导，或许人工智能时常能给咱们一些惊喜，一最先别致小诗，一幅趣味横生画作，但如今架构下人工智能，技术角度上仍在咱们认知范围内，

相比担忧人工智能“出逃”、“终结者”降临，咱们大概要先担心如何合理运用人工智能，如何划定人工智能活动范围，以及人工智能归属难题，规范化目不是为限制人工智能发展、活动范围，而是为确保其合理运用，倘若没有明确规范、准则，人工智能大概会被用于破坏性活动，如对個人秘密侵犯、攻击性行为、发布误导性信息等，而人工智能原本可以被用于更加有益领域，如医疗保健、环境呵护、智能交通等，

规范化目不是限制，而是要以永久主义思路让人工智能更百分之百地发挥自身本事，仅仅追求短期内火速发展，大概会使人工智能在永久内遭遇各类限制、阻碍，如人们对于人工智能不信任、担忧大概会导致激进反应，进而限制其应用范围、开发速度，只有经由制定规则，社会才干促进人工智能与人类协作、交互，进而创造更多独创、创造力，

人工智能与人类艺术创作亦是这般，它们并非是相互取代关系，而是一种人工智能技术在艺术领域应用，或者说人工智能变成实行艺术一种手段，人工智能创作艺术创造性是根据算法、数据分析，它自身并非具备人类艺术家所持有情感、感知、体验，因为这個任凭借助人工智能技术生成如何精美绘画，若缺乏运用者前无古人后无来者生命体验、琢磨，便难以赋予世界更深层次意义，技术上来说，人工智能创作艺术作品往往具有可占卜性、规律性，缺乏传统艺术作品所具有前无古人后无来者性、不确定性，

这并非技术最先個次对艺术领域发起挑战，过去相机对传统绘画、PS软件对摄影冲击，都曾引发大范围讨论，在这里借用“非客观艺术”理论中观点，就艺术可以选择不再去模仿自然，而是经由艺术家個人创造力、表现力来创造自己前无古人后无来者艺术格局，艺术家们可以创造出一种超越自然界艺术格局，将艺术推向一個更为百分之百、抽象境界，

任凭是绘画、电影还是音乐，最后都是一种“表达性艺术”，它们目都是经由格局来表达一种内在情感、感受，运用工具、技法显然要紧，但其中蕴含思想、情感更赋予艺术前无古人后无来者性，海德格尔将艺术比作是大地跟世界斗争，是人们用生命搏斗所留下痕迹，是尝试理解世界、表现世界、赋予世界意义过程，在这個过程中，艺术家经由对自己内在生命感受、琢磨，经由创造性表达来理解、表现世界，赋予世界意义，艺术实际上是人类对于世界、自我意义探究、表达，

人工智能便捷创作方法大概为艺术领域带来一些新大概性，可预见是，人工智能将使艺术创作门槛降低，而让更多没有受过传统艺术训练人能够参与到创作过程中来，没有人工智能工具，或许如今活跃在热门绘画生成软件一些运用者至今都不会主动尝试用绘画来表达自己，艺术表达正是一种“从未能见到可见过程”，经由绘画、电影、音乐、文学等表现方法，人们有机遇将这些无法见呈现给世界，虽说这些东西无法直接被观察到，但是艺术家经由连续地挖掘自己内心深处想法、感受，让人们感受到更深层次情感、琢磨，感受到心灵共振，在这個表达过程中，人工智能是一种技术工具，表达者仍是运用工具人，显然，这是对于健康地运用人工智能工具美好设想，而如今仍存在版权等难题亟待搞定，

提到运用人工智能工具，就会让人想到每一次科技革命都会带来对人与工具关系琢磨，如今，当工具已经超越咱们此前认知、想象，这個难题更加迫切、透彻，前文提到prompt工程师已被占卜为新阶段急需要紧职业之一，有趣是，研究者们训练生成式大模型，期望让机器能理解人类语言，但是prompt工程师似乎却反其道而行之，试图修改常规语言习惯，去适应大模型能够理解指令，这种行为引发咱们琢磨：究竟是机器理解人类语言，还是人们开始运用机器语言？

如今程序员们早已不用01编码、计算机沟通，而是设计出更贴近自然语言编程语言，从Basic、C语言到Python，命令、调用越来越简单易于理解，但任凭如何它们仍是一门新“语言”，须要长时间学习、理解，而自然语言作指令大模型发生，似乎让这道语言边界越来越模糊，信息阶段带来网络流行语、短平快交流方法已经渗透进人们日常生活，技术发展对行为、习惯影响愈发无法忽视，当prompt变成人们每天都会运用智能助手常规用语，谁能预料那时候人与人之间将会有着怎样交流方法？

或许，在这個交汇点上，人与机器正在逐渐融合，而语言则变成一种纽带，这种新语言模式并非简单“人工智能语言”，而是一种由人、机器一道创造、根据人类语言新型交流方法，伴随时间推移，这种语言模式或许会越来越符合人们语言习惯，并逐渐演转变一种更加普遍交流方法，或许咱们已经临近那個阶段，逐渐从“自然人”过渡到机器共存“人机一体”体系，又或许咱们早就已经身处那個阶段，人们右手小指中段那個微微凹陷，大概正是智能手机阶段人机一体物理底座，

任凭如何，当工具超越想象无敌时，咱们确实须要琢磨，不光是反思工具自身，更须要琢磨如何在这個新阶段中与工具实行合理交互，伴随人工智能表现出越来越无敌本事，咱们开始重新审视人类自身，而在此之前，咱们一直以自然生物为研究对象，探索着动物脑电信号、群体性行为等；借此更加清晰地认识自己，或许，咱们还过去充盈遐想地想象过外星生命存在，但那些梦幻类似幻觉总是距离咱们太遥远、超现实，

如今，一股新兴力量迅疾而至，这便是那個崭新“他者”——人工智能，这個看起来“智慧”、“博学”而又无所无法“他者”涌现得这般之快，以至于咱们无法融合它与咱们在千万年间亲密共存历程中逐步发展所得智慧，虽说它似乎比自然生物更易掌握、理解、规范，但人工智能火速雄起，却让咱们一时之间难以百分之百理解它本质、后世发展，

咱们再次面对着重新审视自身挑战，迫切地琢磨着人工智能与人类关系，这种焦虑推动着咱们更深入地解人类特点、局限，同时必需解人工智能特性、潜力，这种学习、琢磨过程，不光将提升咱们技术水平，更是能让咱们认识自身要紧契机。

很高兴你能耐心的读完我的文章，你一定不想在AI时代错过原创、深挖的消息，请关注DeGao的Twitter，不迷路！

生成式人工智能大模型与“他者”之思

相关资讯

最新消息

24小时热文

今日热门话题

© 2025 AI 每日一贴