生成式人工智能技术〔简称“AIGC技术”〕在文字搞定、内容生成方面具有无敌优点,
如何得心应手运用AIGC技术辅助写作?
本文给出具体流程与运用主张,并经由实例,介绍如何运用AIGC技术确定文章选题、写作框架,实行文献梳理、概念释义、语句改良、绘制图表、图表分析、生成摘要等,
任何一项技术都有两面性,咱们在拥抱AIGC技术同时也须要维持克制、理性,在法律、伦理范围内合理运用,变成技术驾驭者而不是技术奴隶,
01
认识AIGC
2022年11月,美国人工智能研究实验室OpenAI公司推出人工智能技术驱动自然语言搞定工具ChatGPT,其无敌信息整合及自然语言搞定本事,以及可根据须要生成各类文本、编写程序功能,引发要紧技术革命,于是人们纷纷琢磨:ChatGPT背后是什么技术?它还能为咱们做哪些事情?
ChatGPT来源于GPT模型,通俗地理解为智能聊天机器人,它与先前智能聊天机器人最大区别在于能够经由学习、理解人类语言,与人类实行对话,还能根据上下文语境实行理解、互动,
像ChatGPT这样,能够利用人工智能技术自动化生成各类类型内容方法属于生成式人工智能技术,就AIGC〔Artificial Intelligence Generated Content〕技术,AIGC经由对既有数据学习、发散,根据与人类交互所确定主题,由AI算法模型百分之百自主、自动生成对应内容,于是协助各行各业实行文本、图像、音影像、代码、策略等多模态内容单一生成或跨模态生成,以提升内容生产效能与多样性,
近年来,得益于神经网络、深度学习、生成模型等技术高速发展,极具是预训练语言模型发生,使机器具有相对强语义理解本事、长文本生成本事,AIGC技术也得到火速发展,
目前,AIGC技术在自然语言搞定方面有明显优点,人们也在运用它实行写作,2023年初,美国电子书平台亚马逊刮起一阵“AI写作”风,人们向ChatGPT输入提示词就能完成几十页电子书创作,并经由自助出版服务直接出售,截至2023年2月中旬,亚马逊Kindle商店已发生超过200本将ChatGPT列为作者或合著者电子书,
02
AIGC写作基本原理
人工智能实行文学写作历史可以追溯到20世纪80年代,1983年,早期人工智能文本生成器Racter诞生,它写作《警察胡子是半成品》被感觉是最先個部百分之百由计算机程序写作文学作品,反而,这個阶段AI文学写作最先选依赖于预定义规则、模板,生成文本质量较低,在逻辑、可读性、创意方面都表现不佳,
进入21世纪后,伴随深度学习与大数据技术发展,AI写作进入一個新阶段,这期间诞生如“微软小冰”“九歌”等AI写作平台,其中“小冰”已协助超过500万名运用者写作现代诗歌,并出版诗集,“九歌”已累计为运用者写作超过700万最先诗词,人工智能写作运行逻辑,模仿正是人类写作以及写作教学行为,人工智能写作并非什么神秘、与人类写作相对立“他者”,而是人类写作活动被拆解后重新具象化,
AIGC写作优点在于能够根据运用者输入,高速生成语句通顺、表达合理内容,给人一种“无所不知,无所无法”印象,其实行基本流程如图1所示,
图1
先说,运用者输入想要难题或者需求,这些难题会被分析编码后进入一個相对复杂GPT模型〔GPT模型是由浩大语料库,就数据集连续强化训练得到〕,
当编码后难题经过一系列复杂运算后,GPT模型会将它感觉“合适回答”根据人类熟悉语法习惯模板输出给运用者,况且,这些难题、回答也都会变成新数据集被GPT模型“记录”下来,持续训练,改良升级,接下来,咱们来解GPT模型、大语言模型、写作训练集等概念,
1.GPT模型
GPT模型是Generative Pre-trained Transformer缩写,意思是根据Transformer生成式预训练模型,GPT模型能够根据输入须要,生成一段让你看得懂内容,是为ChatGPT等生成式人工智能技术供应持助根本,GPT模型使应用程序能够创建类似人类文本、内容〔图像、音乐等〕,并以对话方法回答难题,其中,Pre-trained意为“预先训练非常好”,
一般来讲,在应用这种技术时,会须要先将大量文本数据输入到模型中训练,让模型掌握语言语法规则、表达方法,这個提前输入实行训练过程被称为预训练,Transformer是Google研究者在Attention Is All You Need一文中提出概念,咱们可以先将它简单理解为“转换器”,Transformer基本原理是Encoder〔编码〕、Decoder〔解码〕,也就是先将输入内容转换为计算机能理解内容,再将计算机理解内容转换为人类能理解内容,
2.大语言模型
大语言模型〔Large Language Models,简称LLMs〕是一类根据深度学习人工智能模型,它们是由海量数据、大量计算资源训练而成,经由无监督、半监督或自监督方法,学习并掌握通用语言知识、本事深度神经网络,
LLMs重心架构是Transformer,是一种由Vaswani等人于2017年提出模型,Transformer根本在于自注意力机制,这使得模型能够同时对输入所有位置实行“Follow”,于是更好地捕捉长距离语义依赖关系,LLMs在Transformer基石上实行改进、扩展,经由在大规模文本数据上实行预训练,使得模型能够学习丰富语言知识,
LLMs训练过程分为两個阶段:预训练、微调,在预训练阶段,模型经由无监督学习在大规模文本数据上实行自我学习,于是具有一定层次语言表达本事,在微调阶段,模型会在特定任务上运用有标签数据实行有监督学习,以适应特定任务要求,这两個阶段组合使得LLMs在各类自然语言搞定任务上表现出色,
3.写作数据集
以ChatGPT训练数据集为例,它是由多個语料库组成,这些语料库涵盖各类类型无监督文本数据,如网页、书籍、新闻文章等,这些数据既涵盖通用领域文本,也涵盖特定领域文本,ChatGPT训练数据集最先选有以下几個来源:
①BooksCorpus,这是一個包含11038本英文电子图书语料库,共有74亿個单词,
②WebText,这是一個从互联网上抓取大规模文本数据集,涵盖超过8万個网站文本数据,共有13亿個单词,
③CommonCrawl,这是一個互联网上公开可用数据集,涵盖数千亿价值個网页、网站、其他类型文本数据,
④Wikipedia,这是一個由志愿者编辑百科全书,涵盖各类领域知识、信息,是一個非常有价值语言资源,
除以上几個来源之外,还有一些其他数据来源为ChatGPT供应大量无监督文本数据,于是使得模型能够学习到各类类型、主题领域语言知识,
有数据源之后,接下来就要实行数据采样,以满足ChatGPT训练要求,由于ChatGPT预训练模型须要大量无监督数据实行训练,而现实中可用文本数据往往是非常浩大、复杂,因为这個,须要采样来减少训练时间、计算资源消耗,同时还须要保证训练数据多样性、质量、平衡性,以提高模型疗效、泛化本事,
03
如何运用AIGC技术辅助写作
1.常用AIGC写作工具
①文心一言,文心一言是百度全新一代知识增无敌语言模型,能够与人对话互动、回答难题、协助创作,具备更强中文理解本事,
②WPS AI,WPS AI是金山办公旗下具备大语言模型本事人工智能应用,为运用者供应智能文档写作、阅读理解、问答等体验,
③星火,科大讯飞公司推出认知大模型是以中文为重心新一代认知智能大模型,持有跨领域知识、语言理解本事,能够根据自然对话方法理解与执行任务,
④Bing,Bing AI搭载GPT4Bing浏览器,它能够更好地理解运用者意图,供应更加智能化、個性化搜索、服务体验,
2.AIGC写作流程与运用主张
对AIGC写作而言,重心是训练一個能够生成连贯、语法正确、主题明确长文本神经网络模型,基本流程涵盖:
①数据准备,收集大规模高质量文本数据,涵盖文章标题、内容、摘要;并实行数据清洗、分词等预搞定,
②模型选择,往往选择根据Transformer或LSTM等结构预训练语言模型,这类模型在长文本生成任务上疗效较好,
③模型训练,运用文本数据针对语言生成任务实行模型精调,训练意向是最大化生成文本链式概率,
④文本生成,给定文章主题、根本词等条件,模型自动生成标题、正文,
⑤生成文本后搞定,对模型生成文本实行语句规范化、语法纠错等后搞定,提高可读性,
⑥结果评估,从语法、逻辑、连贯性等方面评估生成文本质量,并反馈改进模型,
AIGC技术根本是利用大规模预训练模型,让模型学习各类文章语言语法、风格特征,相比以往根据模板方法,预训练模型生成文本连贯性更好,接近人工写作疗效,显然,目前仍需人工审核,以确保生成质量,
运用AIGC技术协助写作,根本难题是要学会如何提问,如何让AIGC工具懂得你难题,理解你需求,这样它才干给你满意回答,这里专家推荐一個提问框架——由温州大学方建文博士人工智能教育研究团队设计RTGR框架,该框架具体涵盖角色〔Role〕、任务〔Task〕、意向〔Goal〕、需求〔Requirement〕四個要素,
比方说,要让AIGC设计一份班会课方案,输入提示语:倘若你是一名高中班主任,请制作一份关于学生“防范网络诈骗”班会课方案,打個比方、分析当下中学生发生过网络诈骗案例,协助学生认识常见网络诈骗手段,能够采纳有效防范措施,方案字数1000字以内,内容尽量祥明,条理清晰,运用RTGR框架分析这段提示语,如图2所示,
图2
3.AIGC辅助写作打個比方
以百度文心一言为例,打個比方介绍如何运用AIGC技术辅助写作,
〔1〕文章选题
确定文章选题是写作最先個步,倘若你只是晓得文章大致方向、角度,还不清楚如何确定更加细致选题,可以探究运用AIGC帮你专家推荐选题,文心一言实行设计文章选题重心原理是深度学习技术,极具是自然语言搞定〔NLP〕相关算法、模型,经由语义理解、知识图谱、文本生成以及机器学习算法等技术手段精准地解析运用者意图,关联背景知识,并生成符合运用者需求文章选题,同时大数据分析技术应用进一步提升选题准确性、运用者满意度,这些技术综合应用使得文心一言能够全效地为运用者供应有价值文章选题主张,
〔2〕写作框架
有选题后,还须要确定写作框架,才干使文章“有迹可循”,更有逻辑,可以探究由AIGC来补充写作框架,进一步打开思路,文心一言先说解析运用者输入,识别写作意图,而后规划涵盖最先选观点、分论点、逻辑关系文章框架,最后生成具体内容并反馈给运用者,在这一过程中,预训练语言模型、知识图谱等技术供应语法、语义、背景知识持助,确保生成框架结构清晰、内容丰富,符合运用者需求,
〔3〕文献梳理
在写作极具是撰写学术文章时候,往往要对研究对象做文献梳理,传统方法是一篇一篇去阅读记录,最后梳理汇总成文,现在可以探究运用AIGC技术协助咱们记录学习文献并实行梳理汇总,须要注意是,要完成这项就业光靠一条提示语是不够,还须要经由多次输入来“教会”文心一言,
比方说,要做有关“中小学人工智能课程教学情况”文献梳理就业,可以在文心一言中多次输入提示语来实行,
提示语1:我正在撰写有关人工智能课程教学期刊论文,现在打算实行文献综述一部分写作,目前我已经准备5篇来自重心期刊文献作为文献综述对象,请针对所有文献展开分析,并提炼如研究难题、研究角度、研究方法、研究结论等要素,接下来,我将分多次将文献摘要信息发送给你,请你完成学习,并在每次收到后只要回复三個字“已学习”就可,最后我会请你协助汇总成表格,你清楚吗?
提示语2~6:依次复制5篇论文标题、作者、摘要,
提示语7:请针对所有文献展开结构要素分析,并提炼如研究难题、研究角度、研究方法、研究结论等要素,每個要素为一列,最先個列是论文编号,以表格格局输出,
提示语8:请根据目前学习文献摘要、梳理表格内容,对当下中小学人工智能课程开设情况实行文献综述梳理,在援引相关文章时,尽量加上最先個位作者姓名,字数500字左右,要求逻辑清晰、语句通顺,
〔4〕概念释义
在写作过程中,经常会遇到一些不太清楚概念,或者是语句扩写,或者是想要更加全面地解某個名词,可以探究运用文心一言实行查询,在这一过程中,自然语言搞定协助系统深度理解话题、文献内容,机器学习提升信息提取、撰写准确性,而信息检索则确保高速找到相关文献,比方说,输入提示语“什么是人工智能,用200字介绍”,可以得到有关人工智能一些介绍内容,对有些不清楚地方还能继续追问,
〔5〕语句改良
人们在写作时时而会存在内容口语化、重复化,或者句子结构不合理、有语病等情况,AIGC技术能够高速梳理结构,使语篇规整,文心一言运用分词、词性标注、句法分析、语义理解等一系列技术,经由接收、预搞定、理解分析运用者输入文本,并根据Transformer架构捕捉语义信息,生成更加通顺精练表达主张,于是有效改良文本质量,比方说,输入一段话并提示语要求改良文字表达,就能够提炼原文内容,使其更加精练,
〔6〕绘制图表
文心一言根据数据可视化原理,经由数据解析、图形映射、视觉呈现等根本技术,将运用者数据全效转换为直观图形,并利用前端交互设计提升运用者体验,于是实行数据高速理解、分析,比方说,选择“E言意图”插件功能,输入提示语要求生本钱校师生人数饼图,分析计算后就能够得到一张彩色饼图,
〔7〕图表分析
AIGC技术具备将报表或流程图转换成文字连贯表达出现本事,文心一言“说图解画”功能在让运用者上传图片后,利用计算机视觉技术识别图片内容,再经由自然语言搞定技术生成易懂解释,其重心技术在于图像智能识别、自然语言自动生成,以实行图片高速解读、信息传递,比方说,选择“说图解画”插件功能,先上传一张图片,输入提示语“要求写一篇关于人工智能、机器学习、深度学习三者关系文章”,就能够得到想要结果,
〔8〕生成摘要
化繁为简考验全文概览,提炼总结本事,AIGC可以从成千上万文章中提取几百字摘要,文心一言“览卷文档”功能让运用者在上传文档后,经由深度解析文档内容,识别主题、根本信息,进而自动生成简洁准确摘要,协助运用者高速把握文档重心,比方说,选择“览卷文档”插件功能,先上传一篇论文文档,系统经由解析文档内容就可以得到这篇文章摘要,
除上述方法,百度文库还推出文档助手功能,当在文库中打开某篇文档查阅资料时,可以随时在文档助手中提问,比方说,提问:“该文档最先选内容是什么?”“写一下阅读这篇文档读后感,”这种方法节省时间,提高效能,也运用AIGC技术,
04
总结主张
1.数据局限难题
从目前来看,GPT4数据集缺乏多语言、多文化视角,OpenAI发布数据显示,在训练ChatGPT所运用数据集中,大约96%为英文内容,其余涵盖中文在内20個语种加起来不够4%,既然GPT4数据集以英文为主,咱们就不难推断,其数据背后所容纳思想、文化、经验、生活同样以英文世界为主,
当前,已有学者表达ChatGPT“在尊重除美国其他国家文化背景、运用习惯上仍有欠缺”,同时也有学者对GP3.5实行中文性能评测,发现其中文知识、常识储备不够,在中文闭卷问答上发生事实性错误概率较高,
另外,目前GPT4仅能搞定25000字左右文本,这意味着GPT4“记忆力”仅为25000字,当字数超过25000字时,GPT4将会逐步遗忘讨论内容,还有,目前GPT4训练数据截至2021年,这意味着倘若作者须要以2021年以后人物或大事为素材实行写作,或者要查询相关资料,GPT4能供应协助有限,
2.伦理法律难题
写作是一种有意识精神活动,其写作主体、伦理版权应受到呵护、尊重,AIGC技术到底是人造工具,目前还存在容易受到对抗性攻击、数据秘密等难题,攻击者经由有意修改输入数据来误导模型,或者获取运用者個人秘密信息,这些难题须要在AIGC技术发展中得到百分之百探究、搞定,2023年年初,著名科幻杂志Clarkes world因集中收到大量ChatGPT生成科幻轶事,宣布停止线上投稿;2023年4月11日,科幻杂志《科幻世界》公开表达不接受AI创作科幻小说,主编更直言,“咱们须要是由人写给人看后世轶事”,
沈锡宾等人做一個试用,他们选取2022年发表100篇医学综述文摘,随机选择50篇利用ChatGPT实行重写〔AI写作组〕,其余50篇不做搞定〔原文对照组〕,在整合搞定后他们将两组文本实行文献相似性检测系统检测,同时将两组数据随机打乱后交给AI检测工具、评审者以评定是否为AI写作,并相对它们在判别本事上差异,结果发现上述两组数据根据文字相似性检测结果显示,AI写作组相似性比例仅为6.19%,远低于原文对照组55.91%〔P<0.01〕,
可见,AIGC技术发展对现有学术不端检测系统带来极大挑战,AIGC阶段涌现各类工具生成内容新颖,逻辑清晰,甚至超过大一部分人类水平,其剽窃行为更为隐蔽,使得有些检测系统无法有效应对,同时面对AIGC滥用所导致学术诚信难题,制订事前预警机制迫在眉睫,
同样,AIGC写作法律风险也是无法忽视难题,除知识产权呵护,还有生成内容规范、网络保障、個人信息泄露等风险难题,2023年8月,国家特意出台《生成式人工智能服务管理暂行办法》,指出生成式人工智能服务存在如下风险隐患:生成虚假信息,对运用者引发误导;因运用不当造成要紧数据泄露;被不当利用,变成实施“网络水军”、网络诈骗等网络违法犯罪行为工具;侵犯知识产权……,该办法还明确服务者主体责任、应承担法律责任,
AIGC阶段已然到来,咱们在享受AIGC带来巨大便利、优点同时也无法忽视其存在局限性、隐忧难题,咱们绝对这项技术价值、潜力,拥抱它,将它作为良师益友,但同时咱们也要维持克制,无法一味索求,要在法律、伦理范围内合理运用,变成技术驾驭者而不是技术奴隶。
本文作者:
倪俊杰
杭州师范大学经亨颐教育学院/桐乡市凤鸣高级中学
文章刊登于《中国信息技术教育》2024年第05期
援引请注明参考文献:
倪俊杰.拥抱并克制,合理运用AIGC技术辅助写作.〔J〕.中国信息技术教育,2024〔05〕:76-81.
欢迎订阅
点击图片就可订阅