news 2026/5/1 8:49:09

我作为数据分析师第一年的收获

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
我作为数据分析师第一年的收获

原文:towardsdatascience.com/learnings-from-my-first-year-of-being-a-data-analyst-f17d4e04a9cb

_ 如果您不是 Medium 会员,请点击👉🏽 这里 👈🏽 免费阅读这篇文章。_

去年八月,我加入了谷歌担任数据分析实习生。这是我职业生涯的开始。跨过一年这个里程碑让我开始思考在这段时间里我在工作和生活中不同维度上所学到的东西。我认为这绝对是我经历过的变化最快的时期。这是一项挑战,但也是一种乐趣!

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/1b4e6179df300e7ed7e2f8984a107884.png

图片由作者提供

我将我的学习分为三个类别:数据科学、效率和人际交往。

数据科学

  • 在现实世界的数据科学问题中,仅仅因为数据集极度倾斜,而不是因为算法表现良好,就能获得高精度。你可以有一个负类到正类的比例为 1000:1 的数据集(如垃圾邮件分类),如果我们将所有点分类为负类,这种不平衡将导致超过 99%的高精度。因此,选择正确的评估指标很重要,在这种情况下是召回率。高召回率表明正类被“重新收集”得正确。

  • 在使用统计测试时,必须确保数据符合测试所做出的假设。我记得在一个特定项目中使用了卡方检验,我的经理对此提出了质疑。我告诉他我所知道的关于卡方检验的所有数学知识,但后来我才明白他是在试图让我评估测试的假设是否得到满足,这样使用卡方检验实际上是有意义的!

  • 计算相同指标可能有多种方式。例如,分布的偏度可以使用经典公式计算。然而,还有其他方法可以计算它,例如鲍利系数或皮尔逊系数。选择正确的指标以及为特定问题选择正确的计算方法是随着经验学习的一项技能。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/457137ca6534a28862d992e8b14f3d88.png

图片由作者提供

  • 在互联网上,观看次数、点击量和参与度能为你赚钱。因此,总会有不良行为者试图人为地提高这些指标以产生更多收入。处理来自自动化实体或机器人的流量的一种方法是通过分析它们的行为模式,这些模式与人类的行为模式有显著差异。例如,一个人可能在某个特定时间登录社交媒体应用——醒来后或睡前。然而,一个机器人可能在特定时间被激活并长时间爬取应用以增加流量。

  • 创建仪表板的真实挑战在于使信息一目了然。创建我的第一个仪表板让我明白,这项活动不仅仅是简单地放下表格和布局图表;它关于组织并展示它们,以便利益相关者从中受益,尤其是在他们忙碌的日程安排中。尽管最初的工作感觉像是持续的鼠标点击和拖拽的体力劳动,但我很快发现设计方面有精神上的刺激——找到合适的图表和布局来有效地组织信息。

  • 每个数据科学问题最终都是一个数学问题。你必须从它的第一原理开始解决。如果你不能解释解决方案,那么你实际上并不真正了解解决方案。在一个内置了编程语言库和包的世界里,训练一个机器学习模型并在输出指标上获得好成绩很容易。然而,真正能够向利益相关者解释正在发生的事情是另一回事。当这涉及到深度学习模型时,它变得更加具有挑战性。

  • 数据科学需要耐心和好奇心。我阅读了两本书和许多文章才理解了 p 值。这些努力是值得的,因为我现在直觉上理解了这个概念:“高 p 值意味着,假设零假设(无效应或差异)为真,观察到数据中(或更极端的情况)的结果的概率很高。当这个概率很高时,这表明观察到的任何差异很可能是由于偶然或随机变化。因此,我们“未能拒绝”零假设,因为数据没有提供足够证据证明存在真正的效应或差异,超出了随机变化。”

  • 在尝试解决问题的过程中,你可能会意识到目前没有技术能力解决这个问题。但技术是不断发展的,而且发展速度很快。重要的是你要写下为什么事情没有成功,这样当几年后你或其他人用更好的技术来解决同一个问题时,他们可以最终继续你的进展,而不是从头开始。

  • 对于 Python 中的图形可视化,Plotly比 Matplotlib 更简单,生成的视觉效果也更好。它的交互式功能是一个加分项。

生产力

  • 写会议笔记和日常日记可以帮助你了解你的工作生活进展。它还充当了一个责任镜——如果你跳过了它,也许你也跳过了你的工作。

  • 我不认为项目文档和讲故事有什么区别。项目文档基本上是你向利益相关者讲述你项目的故事。在这里,主角是指标,反派是阻碍,故事是关于你采取的不同方法来解决问题。只有当我开始在岗位上写项目文档时,我才意识到我在学校时代参加的所有那些故事写作和作文比赛的重要性。

  • 如果你被代码的逻辑困扰,那就休息一下,而不是一直粘在桌子上。每当我觉得精神疲惫时,我就会去办公室花园散步。散步要么让我充满活力,要么给我带来灵感,或者两者兼而有之。

  • 任何工作都涉及运动能力。体育项目需要身体运动能力,而脑力工作则需要精神运动能力。去健身房和保持合理的饮食很重要。多亏了我的健身房教练,我自从加入谷歌后体重从 58 公斤增加到 65 公斤,现在我感觉自己更加健康和强壮。

  • 数据科学最好在白板上学习。如果你的办公室有一块白板,那就充分利用它。

人们

  • 在谷歌印度工作的一大好处是共享上下班通勤。这是一项极好的交通福利,也是与同事建立联系的好方法。没有什么能比一场有趣的对话更能打败班加罗尔的交通了!

  • 如果你不寻求帮助,你就不会得到它。理想情况下,每个人都应该愿意帮助,因为帮助他人实际上是一种自私的行为。它通过触发血清素和多巴胺的释放,为我们提供了一条通往快乐的直接途径,这两种激素使我们感到快乐。

  • 每个人都有自己的有趣故事和观点。所以和他们交谈吧。有一次我向自助餐厅的咖啡师(他记住了我的咖啡喜好)问他是否厌倦了从早上 9 点到下午 6 点为几百名员工煮咖啡。他说他并不厌倦煮咖啡,但他厌倦了一整天站着。我问:“这会疼吗?”他给出了一个巧妙的回答:“每份工作都与一些痛苦相关。你不也是因为整天盯着电脑屏幕而感到疲惫才来喝咖啡的吗?”

随着我开始在谷歌的第二年,我非常期待获得更多经验并结识新朋友。如果你想阅读一篇关于我从大学生到办公室职员转变的更哲学性的文章,请查看我几个月前写的这篇文章 👇🏽 。Ciao!

唤醒一个工人

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 5:00:57

PyInstaller实战:将数据分析脚本打包成企业级工具

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个基于PyInstaller的数据分析工具打包示例,包含Pandas数据处理、Matplotlib图表生成和用户交互界面。要求打包后的exe文件能够读取本地Excel数据,生成…

作者头像 李华
网站建设 2026/5/1 5:02:55

Git零基础入门:快马AI带你5分钟上手版本控制

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个交互式Git学习应用,包含:1) 基础概念可视化讲解 2) 沙盒环境实践操作 3) 实时错误检测与纠正建议 4) 渐进式难度任务。使用Markdown展示教程&#…

作者头像 李华
网站建设 2026/5/1 5:04:05

VCPKG vs 手动管理:量化对比C++项目构建效率

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个测试套件,量化比较VCPKG和手动依赖管理的效率差异。功能包括:1) 自动化测试5个典型C项目的初始化时间;2) 测量依赖更新所需时间&#x…

作者头像 李华
网站建设 2026/5/1 5:02:19

零基础入门:用Notepad--写出你的第一个网页

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个交互式HTML教学工具,左侧是Notepad--风格的编辑器,右侧是实时预览窗口。内置10个循序渐进的HTML教程,从‘Hello World’到完整网页。每…

作者头像 李华
网站建设 2026/5/1 4:11:03

NESSUS批量扫描效率提升300%的5个技巧

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个NESSUS扫描优化工具,功能包括:1)分布式扫描节点管理 2)智能任务调度算法 3)网络带宽监控 4)扫描超时自动重试 5)性能日志分析。要求提供与单机扫描…

作者头像 李华
网站建设 2026/5/1 5:01:01

python超简单智能编译工具

链接:https://pan.quark.cn/s/11126dea39dbpython超超简单智能编译脚本打包超超智能,简单,会点鼠标就可以的。直接拉,直接点。就可以。图标也直接拉图片会直接转换成图标,不需要专门找转换功能了。

作者头像 李华