开大竞争情报分析后台服务
[上海开放大学]个性化学生干预系统后台,暨学生画像系统图形化接口
抓取新浪微博博文以及评论, 主要有以下主题:热门,明星,榜单,搞笑,社会,美女,体育,动漫
项目文档记录仓库
使用python的scrapy框架编写的对世界开放大学课程基本信息抓取的爬虫,实现了对MIT,OX等国外著名的二十多所优秀大学的开放课程的相关信息的抓取,同时也包括了EDX,VTC等著名的开放课程网站的课程信息的抓取
使用spark实现elasticsearch部分功能
利用spark的机器学习库实现的简单的文本主题提取功能
spark连接mongdb数据库的基本封装,涉及spark对mongodb数据的读取,写入等操作,加载mongodb数据直接生成spark.dataFrame. 相关spark Mlib的算法的python实现