Skip to content

分工

  • 设计问卷+数据分析(建模、绘图、基础描述)X2 何华驰 徐必晗

  • 文字撰写(背景、目的、方法...)X2 吴伟烽 张金玉

  • PPT,文字/图表 排版润色,答辩 X1 刘闽

时间安排

十二月中旬 一月中旬 选题、设计问卷、预调查

一月中旬 一月底(春节) 确定基本框架、发放问卷/收集数据

春节 二月二十号 数据分析

二月二十号 三月初 定稿

三月初 三月中旬 PPT+排版

2025年3月25日前, 学校选拔晋级省赛团队。

选题

  • 直播间对对碰
  • 经济形势严峻背景下演唱会爆火现象
  • 无人驾驶网约车--萝卜快跑

  • 风雨无阻户外忙,爱心驿站避风

导师

  • 选题不要过大,具体到细节。像影响演唱会的因素以及背后的原因太过复杂,2w字完全不够,而且太过娱乐化,如果聚焦到某一个歌手,可能有塌房风险;直播间对对碰可以考虑再细化到某一个方面;网约车写过的太多了,不建议写;选题可以考虑一些有大爱的方向,正能量一些的。另外由校赛选拔省赛的评委老师每个人的工作量很大,可能几十秒一篇文章,所以选题和基本格式非常非常重要
  • 一月三号左右我们导师会组织所有参赛同学开线下会议,缴费 + 确定指导老师

确定选题

直播间对对碰

初版问卷

  • 性别

  • 学历

  • 年龄段

  • 职业

  • 收入

  • 是否有了解/购买过


  • 是否愿意尝试

  • 愿意: 对哪方面会有期待

    • 娱乐放松 社交互动 购物需求 跟随潮流 支持主播 消磨时间 其他(自填)
  • 不愿意: 原因

    • 时间有限 信任问题 隐私问题 成本问题 有更好的替代活动 周围没有人接触 认为其本质是广告 信息过载 其他(自填)

  • 是否愿意尝试(评分)
    • 1 2 3 4 5
  • 不愿意的原因(选做)
    • 时间有限 信任问题 隐私问题 成本问题 有更好的替代活动 周围没有人接触 认为其本质是广告 信息过载 其他(自填)

  • 主要观看的平台
    • 抖音 快手 视频号 哔哩哔哩 小红书 淘宝
  • 了解的途径
  • 购买过的商品/服务类型 (多选)
    • 食品 饮料 数码 服装 化妆品 护肤品 家居用品 在线课程 玩具 图书 运动装备 汽车配件 其他(自填)
  • 消费金额
    • 0 1-10 11-50 51-100 101-500 501-1000 1001以上
  • 态度(评分)
    • 1 2 3 4 5
  • 频率 (评分)
    • 1 2 3 4 5
  • 观看的原因(多选)
    • 娱乐放松 社交互动 购物需求 跟随潮流 支持主播 消磨时间 其他(自填)
  • 推荐的意愿程度(评分)
    • 1 2 3 4 5
  • 是否愿意向周围人推荐
  • 几个方面的体验程度 (评分)
    • 娱乐性 互动性 购物便利性 信息丰富性 视觉吸引 可靠性 性价比

初版实证分析

描述性统计图

TypeData
词云图购买过的商品
边际分布曲线不同性别/年龄段/职业 ---消费金额----态度
南丁格尔玫瑰图观看原因
多个雷达图不同性别/年龄段/职业 ----观看原因
矩形树图消费金额
漏斗图观看平台
气泡图不同性别/年龄段/职业 ---频率---推荐程度

模型

TypeData
主成分分析几个方面体验程度---态度
多分类logistic模型性别--年龄--职业--收入--平台--消费金额---频率--推荐程度
k-means聚类性别--年龄--职业--收入--愿意尝试的程度
弹性网络(待定)

第二版实证分析

描述性统计图

TypeData
词云图购买过的商品
~~边际分布曲线×~~小提琴图√不同年龄段 ---消费金额----态度
南丁格尔玫瑰图√观看原因
雷达图√不同性别 ----观看原因
矩形树图√消费金额
漏斗图√观看平台
气泡图√不同职业--频率---推荐程度
堆叠柱状图√购买途径
环状饼图√可以改进的地方
~~复合饼图×~~饼图√渠道
箱线图不同商品在对对碰直播间购买意愿程度(1-5)

主要颜色

python
color_series =['#FAE927','#E9E416','#C9DA36','#9ECB3C','#6DBC49','#37B44E','#3DBA78', '#228B22', '#0C8D7B']

模型

Cronbach系数&KMO&巴特莱特检验

TypeData
主成分分析 结构方程模型几个方面体验程度+如果愿意尝试您对以下几个方面期待程度(两数据混合?)
多分类logistic模型性别--年龄--职业--收入--每周看直播时长--消费金额---频率--平均时长--10h愿意花多久--态度
基于PCA降维的k-means聚类性别--年龄--职业--收入--每周看直播的时长--愿意尝试的程度
弹性网络(待定)

更新问卷

  • 题目:购买过的商品/服务类型 (多选)去哪儿了? 词云图数据唯一来源

  • 14题 旧:对于以下商品您更愿意选择哪种购买途径(线下、网购、直播间)

    ​ 新:以下商品您愿意在对对碰直播间下单的意愿程度(1-5)

  • 17题推荐程度与16题态度两个问题重复,删掉推荐程度

观看过/购买过的人群有一道题目:对于不同方面的体验,没有观看但是愿意尝试的人群也有一道:对于几个方面的期待程度。我的想法是直接在构建模型的时候放在一起,某个方面体验/期待比较低反映了这种类型直播间的缺陷,但是不太确定这样做合不合理,分享下你们的看法

目前任务

  • 更新问卷,之后尽快去收集

  • 确定文章基本框架(一二三级标题),确定好之后我来画技术路线图

数据

共817条,有效数据812条

观看/购买过:421人

不愿意愿意尝试:81

无所谓:150

愿意尝试:160

词云图数据修改

问题14新增题目:及时解决问题、售后服务

对于看过/购买过的人群 新增问题:之后还会继续观看

实证分析

描述性统计

气泡图→3D瀑布图

堆叠柱状图→箱线图

TypeData
词云图购买过的商品
~~边际分布曲线×~~小提琴图√不同年龄段 ---消费金额----态度
南丁格尔玫瑰图√观看原因
雷达图√不同性别 ----观看原因
矩形树图√消费金额
漏斗图√观看平台
气泡图× 3D瀑布图√不同职业--频率---态度
堆叠柱状图×购买途径不同商品购买意愿
环状饼图√可以改进的地方
~~复合饼图×~~饼图√渠道

模型

Cronbach系数&KMO&巴特莱特检验

TypeData
主成分分析 结构方程模型几个方面体验程度+如果愿意尝试您对以下几个方面期待程度(两数据混合?)
多分类logistic模性别--年龄--职业--收入--每周看直播时长--消费金额-----平均时长--10h愿意花多久--态度
基于PCA降维的k-means聚类性别--年龄--职业--收入--每周看直播的时长--愿意尝试的程度
弹性网络(待定)

初稿修改

全局

图表 删标题+添加题注

所有符号及公式用mathtype / word自带公式编辑器来写

所有图/表设置好题注并居中,标明图/表X + 名称(就是X,最后统一标号),如 图X 主要购买商品词云图

第一章

综述的缺点

研究思路 + 图

数据分析→分类

因子分析→集成学习:随机森林 、梯度提升、SEM

第二章

调查目的

调查内容 现有+潜在 三线表

调查方法 文献研究法

抽样方法 配额抽样 三线表 方便抽样详细描述

数据分析方法 简洁化

预调查 详细内容

第三章

基本信息: 男女比例

词云、词云图 合为一小节 重新画词云图

缺失的图加上

性别与观看意愿

第四章

随机森林变量选择三线表添加解释

随机森林选择的原因 VIF

独热编码解释X_2→X_2_2 X_2_3 X_2_4

Gini变量角标

SEM结果解释

第五章

结论:可以改进之处 随机森林(因素分析) SEM 梯度提升

第六章

局限性 删减4567

截止时间 3.19 19:00

省赛修改

  1. 加一幅抽样分布图,以华中、华北...为单位,类似于这样

    image-20250325141934865
  2. 所有图像(描述性统计+梯度提升因素重要性图)和封面颜色一致,橙调

  3. 页眉美化?