不写代码,让chatgpt帮我们做数据分析
星佳是个小人物 ;) 编者荐语: 感谢技术流@卡卡龙 老板用AI程序分析了「星佳是个小人物」的公众号,看到这些历历在目的数据让星佳感触颇深(泪流满面),下载Excel表发现1980篇文章(截止7月19日)共阅读量224万。
不写代码,让chatgpt帮我们做数据分析
星佳是个小人物 ;)
编者荐语:
感谢技术流@卡卡龙 老板用AI程序分析了「星佳是个小人物」的公众号,看到这些历历在目的数据让星佳感触颇深(泪流满面),下载Excel表发现1980篇文章(截止7月19日)共阅读量224万2420个,评论区留言数6688,突破2000篇文章。
以下文章来源于不止技术流 ,作者kakalong

不止技术流 . 公众号数据分析,有趣的黑科技介绍等。
chatgpt这个话题已经引起了各行各业的很多热议,不断有各种 「非互联网行业」的朋友来问我这个东西真的有这么神奇吗? 讲抽象概念,朋友们听得云里雾里。于是我决定,干脆直接用chatgpt来做些实际工作,让大家看看它能做什么、到底是怎么做的,当然也让大家看看它有时候也会犯迷糊。 先来说个小往事 4年多以前,我分析了 「caoz的梦呓」这个公众号的所有文章,并汇总成一篇文章 挖一挖caoz大佬的公众号数据 ,因此还得到了一个与号主曹大一对一交流2小时的机会(而见面的前几天他刚刚拍卖了一次下午茶时间,成交价2万)。 文章发出后,许多朋友觉得这个思路很有趣,来找我问是怎么分析的,如实回答“自己写程序”,多数人一听他没法操作就直接走了,但我知道了这种分析其实被许多人需要,后来我尝试做过半傻瓜化分析程序,效果不尽理想,也就搁置了。 前段时间chatgpt推出了code interpreter功能,非常强大,可以智能帮我们分析 e xcel,试过后觉得非常方便,没想到我心底琢磨了几年的"傻瓜数据分析工具"竟以这么一种高维度、且远超预期的方式突然就出现了。 我有个朋友叫星佳,写了好多年公众号,想利用chatgpt进一步总结挖掘这些文章的价值, 找我来讨论该怎么进行,说来也巧, 几年前就是他鼓励我写的那篇分析曹大公众号的帖子。我说那就先让chatgpt按照分析曹大公众号的框架来分析一下你的吧。 当 然本文的目的绝不是仅仅分析这个公众号,而是演示chatgpt究竟可以帮我们做哪些事,有什么坑,如何提高效率(怎样更好摸鱼) 。 首先,使用我自己编写的工具统计出 「星佳是个小人物」这个公众号每篇文章的标题、发布时间、正文、阅读量等信息,保存为一个excel表格。(此excel放在了文末,如果你有其他表格需要处理也完全可以适用下面的方法)

把这个excel表格发给chatgpt,并开启 code interpreter功能。接下来就可以给它发送指令详细分析这个表格了。 1.先来个简单的,统计"原创"文章的数量和比例。整个沟通过程我们只需要像在跟一个真人交流一样给它发出命 令: 请统计“原创类型”为“原创”的数量,以及原创占总数的比例 ,需要注意的是你的文字表达要清晰明确。

2.让它画个图,显示阅读量、点赞量随时间变化的曲线图。我们一上来就给它加了点难度:让它画两个y轴的图。 它不仅画出来了,还帮我们做了个简单总结。不过大家注意看纵坐标的标签是一些方框,因为chatgpt对中文的支持还不完善,在图表中的汉字没有正确显示。下文也会有类似情况。(其实这些问题都有办法解决,不过为了行文的主线我就不展开讲了)

3.统计平均阅读量、点赞数等信息。比较简单。这里插播一个小知识点,我们可以点击下图红色箭头所指的地方,查看chatgpt为了实现你给它下达的命令,是用什么代码实现的(建议从整轮对话中第一次出现此箭头的位置开始查看)。


4.分段统计阅读数分布情况。为了方便执行,我详细说明了统计区间的划分规则。它理解了我的意思,并给出了答案。

很好,但我不满足,希望它能画成图表的形式,而且为了美观希望纵坐标是阅读量区间,它很好理解并画出了图表并作了简单总结。大家注意看纵坐标的数值标记 (1000,2000],是左开右闭区间的形式,说明它准确理解了我上面强调的 请注意1000-2000应该被处理为阅读量“大于等于1000”且“小于2000” 这句话,还是挺细致的。

但我还不满足,希望能在每个柱子上标记具体数值,但我忘了这个“柱子”的学名应该叫啥了,干脆直接按日常交流的方式给它发命令,结果它又准确理解了我的意思,加上了每个柱子的数值。这理解力,不比一个实习生差吧?

5.接下来,我想用统计“阅读数”的方式再统计一遍“点赞数”,我干脆偷个懒,直接让它仿着做 类比于上面阅读数统计的例子,请统计“点赞数”,并画出类似的图表, 可以看出,它并没有一下就给出正确答案,但是它能自己发现错误,然后一步步自我纠正,并最终得到了正确答案。

其实,多数号主的多数文章点赞数都比较少,这里的统计其实更多的目的是找出异常值,然后看看这些点赞多的文章都讲了哪些不一样的内容。 6.接下来,我们让chatgpt根据现有的“阅读数”和“点赞数”新生成一列“赞阅比”,然后绘图,这个对它来讲难度不大。

接着,还是让它基于新生成的这一列绘制类似阅读数、点赞数的统计图表,可以看出来它虽然没有一次成功,但明显是吸取了之前的经验,经过较少的重试次数就成功了。这自我进化能力,是不是有点像一个头脑比较灵活的优等生?

从图上看,赞阅比 比较低 ,当然 不止星佳,公众号的平均赞阅比都很 低,大家还是比较喜欢阅后即走,不留一个小心心 。 当然,如果你有心,一定想去看看 那几篇数据最高的文章讲了些什么内容。 7.继续加难度,让它再添加一列“正文字数”的统计,画出折线图表和统计图表。这次,我一次性发给chatgpt许多条指令。而它完全理解了,并一次成功输出了我们想要的所有内容。标准的尖子生了! 

到了这里,你是不是觉得chatgpt简直是太棒了,它好像真像个真人一样,有记忆、有推理,可以举一反三越越用越聪明。 8.接下来我们换个维度,让它统计每个时段的发文数量。它需要自己从时间格式中提取小时数据,然后统计,然后在我没有明确要求的情况下绘制了一个统计图。极有可能是它已经总结出了我在每一项分析中都喜欢生成一张图表,颇有点学会抢答的感觉。

9.根据分析caoz那篇文章的内容,接下来是统计词频、画词云。但chatgpt的 code interpreter环境目前没有内置jieba等中文分词库,暂时无法实现这项统计。 不过另一个很优秀的ai工具claude可以实现中文分词,所以我想试试让chatgpt把阅读量最高的前10篇文章整理成json格式文件,然后让claude去进一步处理。(如果您不了解本段中的某些专业词汇应该不会影响您对大意的理解) 然而在chatgpt生成json文件的过程中,出现了“胡说八道”的情况,费了点周折之后,它终于帮我生成了json文件,我只需要点击下载即可。 10.接下来我把json文件发给了claude,请它帮我总结这10篇文章的主要内容。毕竟,我们很想知道爆火的文章在谈论什么内容。 其实提取文章主题是个非常大的话题,会衍生出许多有用有趣的内容,我目前也做了一些尝试,效果很不错,有机会再给大家分享。

最后一步,就是画词云了,claude帮我统计出了权重最高的前50个词。

但是,claude不支持画图,更不用说词云图了,而chatgpt只能画英文词云。我只好把这些统计词频填入一个第三方在线网站,用它的免费版画了个简版词云图。

本文所有数据均获得星佳授权,且本文发布前已请他查阅无异议。特别感谢他同意把原始excel公开,方便朋友们以此为样本自行学习。可以点击左下角的 阅读原文 下载。 结语 人工智能正处于飞速发展期, 智 能总结、智能 对话、智能绘画 等功能都在 快速演进中。借助AI,许多人已经感觉到自己的工作效率有了明显的提升 ,而上一次 这样震撼人心 的 伟大技术 变革可能要倒推到20年前。建议大家有时间的话一定要对这个领域保持关注,它跟每个人都有关系,而它之所以强大,很大一个原因是普通人可以熟练使用。 我在AI领域只是一个有极高热情但刚刚入门的小学生,本文仅仅是抛砖引玉,欢迎大家留言讨论您觉得本文的内容还可以怎样进一步加深,或者怎么样更好得融入您的工作中。 欢迎关注本公众号,获取更多精彩内容。
下面是我开发的其他小工具,欢迎使用
预览时标签不可点
微信扫一扫 关注该公众号
微信扫一扫 使用小程序
__

木易来自广东
我以为gpt不会作图

星佳是个小人物来自
他比人类进化快。