当前位置: 首页 > news >正文

周总结报告5

一、本周进展回顾
(一)时间投入
本周总学习时长 28 小时,分配如下:

大数据技术:13 小时(Kafka、Hive)
Java Web:7 小时(WebSocket 模块开发、性能优化)
Python:6 小时(Hadoop 集群监控脚本、数据清洗)
问题解决:2 小时(Kafka 消息重复消费、Hive 查询性能)
(二)学习与实践内容
大数据技术
Kafka:搭建单节点与集群环境,编写 Java 生产者 / 消费者代码,实现消息的发送与接收;配置 Flume 与 Kafka 的对接,将 Flume 采集的日志数据发送到 Kafka 主题,构建完整的日志传输管道;研究 Kafka 的分区与副本机制,理解其高可用性与消息持久化原理。
Hive:安装并配置 Hive,连接 HDFS;学习 Hive 数据类型、内部表与外部表的创建及区别,实践 HQL 语句进行数据查询、插入、删除操作;对比 HBase,明确 Hive 作为数据仓库在离线数据分析场景的优势,尝试将 HDFS 中的 CSV 数据映射为 Hive 外部表进行分析。
Java Web
基于 WebSocket 实现消息通知模块,前端页面能够实时接收并展示 Flume 采集的日志动态,包括日志级别、内容摘要等信息;对现有 Java Web 应用进行性能优化,排查并修复了几个内存泄漏点,通过调整线程池参数提升了接口响应速度。
Python
编写 Python 脚本,利用 Hadoop 提供的 API 获取集群中各节点的磁盘使用率、CPU 负载等状态信息,当检测到异常情况(如磁盘使用率超过阈值)时,通过邮件触发告警;对从 HBase 导出的用户行为数据进行清洗,去除重复、缺失值,为后续更深入的分析做准备。
二、下周计划安排
大数据方向:学习 Spark 分布式计算框架,了解其核心概念与运行原理,实践使用 Spark 进行数据处理与分析;研究 Flink 实时计算技术,对比 Spark Streaming,掌握 Flink 的部署与简单应用开发。
Java Web 与 Python:优化 Java Web 的 WebSocket 模块,增加消息过滤、历史消息存储等功能;用 Python 结合机器学习算法,对清洗后的用户行为数据进行聚类分析,挖掘用户行为模式。
三、本周遇到的问题
技术难题:Kafka 在高并发场景下出现消息重复消费现象,通过调整消费者的偏移量提交方式解决;Hive 查询大规模数据时性能较差,对查询语句进行优化(如分区过滤、列裁剪)后有所改善。
学习反思:在学习 Spark 和 Flink 等新技术时,感觉知识点较多且复杂,需要制定更细致的学习计划,逐步深入理解。

http://www.agseo.cn/news/71/

相关文章:

  • 使用模拟库进行测试的意义是什么?
  • MyEMS:开源领域的能源管理创新解决方案
  • 【Containerd交互命令】ctr、crictl常用基本命令
  • DAG Matters! GFlowNets Enhanced Explainer For Graph Neural Networks | |
  • abap字符串操作
  • [完结16章]COZE AI 智能体开发体系课(从入门到高级)零基础零代码
  • 推出其新一代高性能Sub-GHz射频收发芯片UM2011A
  • 在 Athena UDF 中使用 Java 将数据写入 DynamoDB
  • Pychram 激活
  • 掌控AI编程全链路:Cline让你随意选模型、透明成本、零信任安全 - 公众号
  • 数据库事务隔离级别引发的应用安全竞态条件漏洞分析
  • Node-Red学习笔记
  • 隧道工程LoRa无线监测设备集成方案 直击隧道深部监测痛点
  • 【k8s】为什么ctr导入后通过crictl查看不到导入的镜像
  • Swift 结合 Tesseract 进行验证码识别
  • 当虚拟机目录空间不足时的扩容
  • 使用IText创建PDF
  • MyEMS 深度解析:碳管理赋能与系统集成的实践路径
  • uv包管理 - 小学弟
  • 对口型视频创作指南:AI如何让“假唱”变成真艺术?
  • 用Python + Tesseract OCR:验证码识别全流程解析
  • Dockerfile中的yum install、yum clean和rm -rf /var/cache/yum
  • Linux 完整的用户登录工作流程详解(GUI TTY)
  • 0 元夺宝小程序介绍
  • 线上频繁FullGC?慌得一比!竟是Log4j2的这个“特性”坑了我
  • clickhouse进程stop之后为什么还自动启动
  • 294、瑶池
  • Unix/Linux 高效的平台通过 IP 地址获取接口名的 C++ 构建
  • 每周读书与学习-初识JMeter 元件(一)
  • CloudBeaver轻量级的云数据库管理工具