AIGC辅助数据分析与挖掘:基于ChatGPT的方法与实践 宋天龙
定 价:99 元
- 作者:宋天龙
- 出版时间:2024/2/1
- ISBN:9787111744153
- 出 版 社:机械工业出版社
- 中图法分类:TP18
- 页码:
- 纸张:胶版纸
- 版次:
- 开本:16开
内容简介这是一本能指导数据分析师和数据挖掘工程师在AIGC时代快速实现能力跃迁的著作,教会他们使用ChatGPT等AIGC工具,大幅提升数据分析与挖掘的能力和效率。全书围绕Excel、SQL和Python这3大常用的数据分析和挖掘工具展开,从方法和实践2个维度系统讲解了如何使用ChatGPT和Bing Copilot等AIGC工具来辅助提升效率。全书一共8章,内容可以分为四个部分:1.AIGC工具使用和Prompt撰写首先详细介绍了数据分析与挖掘能用到的各种AIGC工具的使用方法和注意事项,然后全面讲解了如何面向数据分析与挖掘场景构建高质量的Prompt,包括大量的方法和最佳实践。2.AIGC辅助Excel数据分析与挖掘方法角度,详细阐述了AIGC工具如何辅助Excel数据分析与挖掘,包括数据集生成、数据管理、数据处理、数据分析和数据展示等;实践角度,通过RFM分析、时间序列分析和相关性分析等3个方面的案例讲解了AIGC工具与Excel在不同场景中的结合使用。3.AIGC辅助SQL数据分析与挖掘方法角度,详细讲解了AIGC工具如何辅助SQL数据分析与挖掘,包括数据准备、查询、清洗、转换、分析等;实践角度,通过广告渠道评估、归因报表、留存报表等3个方面的案例讲解了AIGC工具与SQL在不同场景中的结合使用。4.AIGC辅助Python数据分析与挖掘方法角度,详细讲解了AIGC工具如何辅助Python数据分析与挖掘,包括环境构建、数据探索、数据处理、AutoML等;实践角度,通过广告预测、商品分析和KPI监控等3个方面的案例讲解了AIGC工具与Python在不同场景中的结合使用。除此之外,本书还全面总结了用AIGC辅助这3种数据分析与挖掘工具时会遇到哪些问题以及有哪些注意事项。
(1)作者背景权威:作者是触脉咨询合伙人,前Webtrekk(德国最大在线数据分析服务提供商)中国区前技术和咨询负责人,中国商业联合会数据分析专业委员会专家组成员。(2)作者经验丰富:作者有15年数据分析相关工作经验,是AIGC领域的布道者,为SHEIN、联合利华、顺丰优选等企业提供服务。(3)覆盖流行AI工具:本书所使用的AI工具均是免费的且是当下流行的,包括ChatGPT、Bing Copilot及第三方插件,突出这些工具的强大能力、易用性等特点。 (4)覆盖核心数据分析工具:本书同时讲解了如何用ChatGPT等AIGC工具辅助Excel、SQL和Python这3种数据分析工具来进行数据分析与挖掘。(5)多元 AI 交互方法:全面介绍多种与 AI 交互的方法,涵盖高效提示词撰写、AI 交互反馈、多模态信息交互、个性化参数设定等,保证了AIGC 知识的完整性和实用性。 (6)以案例为核心:通过大量综合案例展示如何与 AI 交互并解决实际工作中的问题。 (7)强调人的主导地位:突出人在 AI 应用中的主导作用,强调在交互过程中如何充分利用人类的智慧、经验和能力达到预期的输出结果,进一步突出了数据工作者的工作价值。 (8)丰富的学习资源:本书提供了丰富的辅助学习资源,包括数据、图表、代码、提示词等,同时强调互动性,鼓励读者积极分享。
为何写作本书
在数字化时代,数据已经成为企业和组织的宝贵资源。数据分析与挖掘则是数据价值挖掘的重要途径,对于制定战略决策、优化业务流程和发现市场趋势具有巨大的作用。数据分析与挖掘不仅仅需要技术,还需要正确的理论、工具和方法,方能完成数据的收集、清洗、处理、分析、挖掘和展示等工作。这些工作并不简单,通常需要花费大量的时间和精力来学习与实践,甚至可能需要其他专业人士的协助和指导。
那么,有没有一种方法,可以让数据工作者更轻松、更高效地完成这些工作呢?答案是肯定的。这就是本书要介绍的AIGC(Artificial Intelligence Generated Content,人工智能生成内容)技术。AIGC是一种基于人工智能的引导式计算技术,它通过自然语言交互的方式,帮助用户完成各种计算任务,包括数据分析与挖掘、编程开发、文本生成等。AIGC技术是数据分析与挖掘的革命性引擎,为我们提供了新的机会和工作方式。
我编写本书的初衷是想分享我在使用AIGC技术过程中的心得和经验,以及我在数据领域的一些观察和思考。我认为AIGC技术是一种具有革命性潜力的技术,它可以让数据工作变得更加简单、快捷和有趣,同时让数据工作者更专注于数据的本质和价值,而不受烦琐的细节的困扰。我希望通过这本书,能够让更多的数据工作者了解和运用AIGC,帮助他们提升自己的数据分析与挖掘能力。
本书主要特点
使用流行且免费的AI工具:本书充分利用免费AI工具(如ChatGPT、New Bing Chat及第三方插件)进行数据处理,突出这些工具的强大能力、易用性等特点。
聚焦数据分析与挖掘领域:本书聚焦于数据分析与挖掘领域,与数据工作流程紧密结合,强调数据领域中核心工具(如Excel、SQL和Python)的应用。
详尽介绍多元化AI交互方法:本书全面介绍了多种与AI交互的方法,涵盖提示词指令体系及与不同工具的结合应用、AI交互反馈、多模态信息交互、个性化参数设定和提示词构建工具等内容,保证了AIGC知识的完整性和实用性。
以案例为核心:本书以案例为核心,通过案例展示如何与AI交互并解决实际工作中的问题,真实呈现实际工作场景。
强调人在AI应用中的主导地位:本书突出了人在AI应用中的主导作用,强调了在交互过程中如何充分利用人类的智慧、经验和能力达到预期的输出结果,进一步突出了数据工作者的工作价值。
提供丰富的辅助学习资源:本书提供了丰富的辅助学习资源,包括数据、图表、代码、提示语等,同时强调互动性,鼓励读者积极分享。
本书阅读对象
本书适合数据领域的从业者和爱好者阅读,无论刚入门的新手,还是经验丰富的专家,都可以从本书中获取有价值的信息和灵感。你不需要拥有深厚的编程或数学背景,只需对数据分析和挖掘感兴趣,并愿意尝试新的技术和方法,就能轻松阅读本书。
以下是本书特别适合的读者群体。
数据分析师:渴望提升数据分析技能和效率的专业人士。
业务分析师:需要更好地理解和利用数据来支持业务决策的专业人士。
市场研究人员:寻求更深入的市场洞察和趋势分析的专业人士。
数据科学家:对AIGC技术在机器学习和自然语言处理领域的应用感兴趣的专业人士。
如何阅读本书
本书共8章,分为四部分,根据不同的方法和数据工具(Excel、SQL、Python)进行组织。每个部分包含2章,除第一部分外,其余三个部分分别从方法和实践两个方面进行阐述。
第一部分(第1章和第2章)介绍了AIGC技术的基础知识,包括概念、产品、操作、指南、注意事项以及在数据分析场景中撰写Prompt的方法。这部分为后续章节提供了必要的AIGC工具和提示词指令的知识储备及技术指南。
第二部分(第3章和第4章)阐述了AIGC技术如何辅助Excel进行数据分析与挖掘,包括数据管理、处理、分析和展现等,以及3个实际数据问题的解决方案。
第三部分(第5章和第6章)探讨了AIGC技术如何辅助SQL进行数据分析与挖掘,包括数据准备、查询、清洗、转换、分析等,以及3个实际数据问题的解决方案。
第四部分(第7章和第8章)介绍了AIGC技术如何辅助Python进行数据分析与挖掘,包括环境构建、数据探索、数据处理、AutoML等,以及3个实际数据问题的解决方案。
你可以根据自己的需求和兴趣,选择相应的部分进行阅读。如果你想了解AIGC技术的基础知识和原理,可以先阅读第一部分;如果你希望学习AIGC技术在某个具体数据工具上的应用方法,可以直接跳到相关部分;如果你想查看AIGC技术在实际数据问题上的解决方案,可以参考每个部分的实践案例内容。
同时,为了更好地与AI进行交互,本书中的AIGC交互指令都按照统一规范编写。以下是一个完整的AIGC交互示例:
[ChatGPT] 3/1/2 用户输入的Prompt指令
上述交互指令的具体说明如下:
[ChatGPT]表示我们所使用的AI产品,默认为ChatGPT免费版和New Bing Chat(Bing Copilot)。
3/1/2中的3表示该对话是第几章的对话,该示例中是第3章。
3/1/2中的1表示该对话是本章的第几个对话,该示例中是第3章的第1个对话。
3/1/2中的2表示在当前对话中这是第几次交互,该示例中是第3章第1个对话中的第2次交互。
“用户输入的Prompt指令”是输入的具体提示指令,该指令可能是一句话、一段话,甚至几个段落。
通过这样的交互规范,我们能够更清晰地呈现AIGC与用户之间的对话,包括所使用的产品、上下文信息、内容输入和输出等。同时,我们保持所有对话都使用系统默认参数,以确保读者在使用本书的Prompt示例时,能够更容易地还原案例中的细节。
勘误
尽管我努力确保本书的准确性和质量,但鉴于时间和能力有限,以及ChatGPT特性和功能快速迭代,书中难免会有错误和不完善之处。你在阅读过程中发现任何错漏或有任何疑问,欢迎随时联系我,我将不遗余力地进行修正和解答。你可以通过以下方式获取支持和更新信息。
关于本书的勘误、常见问题以及配套资源,你可以在链接https://www.dataivy.cn/article/2022/1/25/3.html中找到。
致谢
在本书的创作过程中,我获得了许多人的帮助、支持与鼓励。
感谢王晓东先生和柳辉先生,他们在触脉公司为我提供了很多发挥优势的机会,使我能够接触到不断涌现的新场景、新技术、新方法和新思维,开始认真研究、学习、探索和实践ChatGPT。此外,还要感谢与我密切合作的触脉团队成员,包括张默宇、张璐、白迪、王奇、许曼、丘岳才、杨思琦、洪晓丹、杨晓岳、胡振、张国锋等。在与他们一起工作的过程中,我积累了丰富的实践经验,由衷感谢他们的支持。
感谢一直支持我的读者朋友们。自2014年以来,有许多读者朋友与我以书会友,无论在内容、主题方面还是书稿质量等方面,他们都提供了宝贵的建议。正是因为有了他们的支持,我才有了写作的动力。
感谢我的家人,特别是我的夫人姜丽。在本书的创作过程中,她给予我无限的支持和理解,让我能够坚持不懈地写作。
最后,感谢你选择本书,希望本书能够为你的数据工作带来新的灵感和帮助。祝你阅读愉快!
宋天龙(TonySong)
数据领域资深技术专家,触脉咨询合伙人,前Webtrekk(德国最大在线数据分析服务提供商)中
国区前技术和咨询负责人。
在数据领域工作15年,积累了大量的数据工作经验、案例、场景和方法,并且在数据分析领域颇有口碑。擅长数据挖掘、建模、分析与运营,精通端到端数据价值场景设计、业务需求转换、数据结构梳理、数据建模与学习以及数据工程交付。在跨境、电子商务、零售、银行、保险等多个行业拥有丰富的数据项目工作经验,参与过集团和企业级数据体系规划、DMP与数据仓库建设、标签和画像系统建设、大数据产品开发、网站流量系统建设、个性化智能推荐与精准营销、企业大数据智能营销与应用等。服务客户包括SHEIN、联合利华、Webpower、德国OTTO集团电子商务(中国),Esprit中国、猪八戒网、顺丰优选、乐视商城、泰康人寿、酒仙网,国美在线、迪信通等。
主要研究项目及领域
数据化运营 × AI、数据分析、数据挖掘、机器学习、个性化推荐、精准营销、互联网和网站分析。
社会资源和身份
中国商业联合会数据分析专业委员会《中国大数据人才培养体系标准》专家组成员,虎啸奖评委会委员,DMT数字营销人才认证委员会认证委员。
著作成果
《Python大数据架构全栈开发与应用》(2023年)
《电商流量数据化运营》(2021年)
《Python数据处理、分析、可视化与数据化运营》(2020年)
《Python数据分析与数据化运营(第2版)》(2019年)
《Python数据分析与数据化运营》(2017年)
《企业大数据系统构建实战:技术、架构、实施与应用》(2017年)
《网站数据挖掘与分析:系统方法与商业实践》(2015年)
序
前言
第一部分 AIGC基础知识
第1章 AIGC赋能数据分析与挖掘2
1.1 探索主流的AIGC产品2
1.1.1 ChatGPT:AIGC的行业标杆2
1.1.2 New Bing Chat:Bing聊天助手3
1.1.3 GitHub Copilot:智能编程伙伴3
1.1.4 Microsoft 365 Copilot:Microsoft一站式办公AI4
1.1.5 Azure OpenAI:Azure云平台服务4
1.1.6 Claude:Anthropic AI工具5
1.1.7 Google Bard:Google AI对话工具5
1.1.8 文心一言:百度AI工具6
1.1.9 通义千问:阿里AI工具6
1.2 选择适合数据工作的AIGC产品6
1.2.1 产品选择攻略:应用场景与关键要素6
1.2.2 应用集成AIGC:一站式AI助手7
1.2.3 SaaS模式AIGC:灵活的AI as a Service 7
1.2.4 私有化部署AIGC:企业定制版AI 9
1.3 ChatGPT实操指南9
1.3.1 ChatGPT的常用技巧9
1.3.2 ChatGPT的高级功能12
1.4 New Bing Chat实操指南14
1.4.1 New Bing Chat的常用技巧14
1.4.2 New Bing Chat的高级功能15
1.5 AIGC驱动数据分析与挖掘变革18
1.5.1 技能要求:数据从业者的技能演进18
1.5.2 应用场景:数据工作的加速器19
1.5.3 人机协作:数据工作的新范式19
1.6 AIGC在数据工作中的注意事项20
1.6.1 基于最新知识的推理限制20
1.6.2 “一致性”观点的挑战20
1.6.3 数据结果审查与验证21
1.6.4 数据安全、数据隐私与合规问题21
1.6.5 知识产权及版权问题22
1.6.6 社会认知偏差影响数据推理22
1.6.7 难以解决大型任务的统筹与复杂依赖问题22
1.6.8 垂直领域数据和知识缺失问题22
1.6.9 上下文数据容量限制23
1.6.10 多模态语境的输入限制23
1.6.11 编造事实24
1.6.12 合理设置AIGC使用期望24
第2章 构建高质量Prompt的科学方法与最佳实践25
2.1 Prompt的基本概念25
2.2 Prompt对AIGC的影响和价值25
2.2.1 模型的输入来源25
2.2.2 控制模型复杂度26
2.2.3 提高内容生成质量26
2.2.4 个性化体验和内容定制27
2.3 Prompt输入的限制规则27
2.3.1 信息类型的限制27
2.3.2 数据格式的约束规则27
2.3.3 内容长度的合理限制28
2.3.4 对话主题的限制原则28
2.3.5 语法和语义的严格限制28
2.4 高质量Prompt的基本结构29
2.4.1 角色设定:明确AI角色与工作的定位29
2.4.2 任务类型:明确AI任务的类别与性质29
2.4.3 细节定义:准确定义期望AI返回的输出30
2.4.4 上下文:让AI了解更多背景信息30
2.4.5 约束条件:限制AI返回的内容31
2.4.6 参考示例:优质示例的参考借鉴31
2.5 提升Prompt质量的关键要素32
2.5.1 指令动词:精确引导模型行动32
2.5.2 数量词:明确量化任务要求33
2.5.3 函数和公式:运用数学逻辑的威力34
2.5.4 标记符号:有效提示引用信息34
2.5.5 条件表达:准确限定输出条件35
2.5.6 地理名词:地理位置信息的界定35
2.5.7 日期和时间词:数据周期的明确表达36
2.5.8 比较词:精确比较与对比要求36
2.5.9 参考示例词:基于样板输出内容36
2.5.10 语言设置:设定合适的输出语言37
2.5.11 否定提示词:反向界定与排除歧义37
2.6 构建Prompt的最佳实践38
2.6.1 明确目标和场景:精准设定任务目标38
2.6.2 任务分解:拆解大型、复杂任务39
2.6.3 交互反馈:基于正负向反馈的优化40
2.6.4 让AI提问:引导模型主动提问41
2.6.5 控制上下文:合理管理对话信息量41
2.6.6 引导、追问和连续追问:优化对话交互42
2.6.7 语言简明扼要:语言表达精炼43
2.6.8 使用英文Prompt:借助英文提升质量43
2.6.9 输入结构化数据:让AI充分理解数据44
2.6.10 提供参考信息:确保信息完整性44
2.6.11 增加限制:避免输出宽泛内容45
2.6.12 明确告知AI:不知道时请回答“不知道”45
2.7 精调Prompt示例:引爆AIGC优质内容46
2.7.1 逐步启发和引导式的Prompt精调46
2.7.2 从广泛到收缩的Prompt精调47
2.7.3 利用反转角色的Prompt精调48
2.7.4 基于少样本的先验知识的Prompt精调49
2.7.5 基于调整模型温度参数的Prompt精调50
2.7.6 基于关键问题的Prompt精调51
2.8 Prompt构建工具:轻松撰写提示词52
2.8.1 Prompt构建工具简介52
2.8.2 New Bing Chat的提示词构建和引导功能52
2.8.3 ChatGPT第三方客户端工具的Prompt模板53
2.8.4 ChatGPT Prompt Generator:AI驱动的Prompt构建工具56
2.9 常见问题56
2.9.1 为什么Prompt相同AIGC答案却不一样56
2.9.2 会写Prompt就能做数据分析与挖掘吗57
2.9.3 如何避免Prompt的内部冲突和矛盾57
2.9.4 如何避免Prompt的内