优酷视频网是中国最具影响力的网络媒体和具有全球影响力的中文视频网站,研究优酷视频标题的网络抓取技术,研究标题语料库的数据库设计方法和用户接口设计实现方法,标题语料的字词处理方法,实现标题语料字词检索、增删改查、统计、图表展示等功能。该系统主要研究内容可分为三大类:数据抓取,数据处理以及数据展示。
(1)数据抓取,也叫数据收集模块,即优酷视频标题的网络抓取技术,这是整个系统的基础所在,使用Python语言利用网络爬虫动态获取优酷网的标题,然后对得到的源视频标题数据进行人工处理,构建优酷网标题语料库,insert语句插入搜索结果内容,create语句创建数据库表格等内容。
(2)数据处理:标题语料库的数据库设计方法和用户接口设计实现方法,标题语料的字词处理方法,和对数据库内容的增删改查;
数据库设计:以表格Table形式存储,存储至少包括所抽取的标题内容,标题关键字,抽取次数,文章浏览次数,原文链接等,查询结果创建接口显示视图View,数据增加主要通过爬虫获取,尽量避免人工获取,可以人为删除,修改无效标题内容,查询功能主要是在数据展示模块。
(3)数据展示:可以根据关键词搜索查询完整的标题,或者查询同一关键词在某时间段的出现次数,帮助用户更快的了解当前热点话题,也可以显示网址让用户自己去了解文章具体内容。后台使用select/from/ where条件语句查询信息,通过视图View显示给用户,展示形式包括表格,或者图表;
在展示模块,会在后台统计用户搜索的关键词,同步记录进相关关键词的搜索次数。
已具备的实验条件
实验环境:Python编程语言实现爬虫抓取数据,virtual code开发工具,采用python实现界面设计,数据库sqlite;
实验数据:优酷视频网。
关键技术
前端采用: vue+elementui后端: python+django框架,使用Scrapy框架爬取优酷视频页面数据, 使用了Twisted 异步网络框架,可以加快我们的下载速度,使用Pandas进行数据的清洗。数据可视化分析使用ECharts,底层依赖轻量级的矢量图形库 ZRender,提供直观,交互丰富,可高度个性化定制的数据可视化图表。用于提升数据可读性,将优酷视频数据可视化后图表形式在Django中展示,可以让用户更加明显的观察到数据背后的规律等
预期目标
通过设计数据库以及网络爬虫抓取数据形成一个相对完整的标题语料库,实现基本的数据库功能,以及对优酷视频标题的归类总结,最大化的方便用户搜索优酷视频。
实验方案的可行性
1、技术可行性:当前优酷视频网页结构主要分为目录型和详情型,两者之间的连接桥梁是同一条视频的URL(uniform resource locator)即互联网地址必须相同,由此已经开始提出并使用了现在通用的网页视频标题自动抽取算法。在该方法的基础上,实现标题语料库的设计上技术是可行的;
2、经济可行性:设计过程中所用到的代码基本都是开源的,不需要经费支持,具有经济可行性;
3、社会可行性:该系统的设计不违背法律法规,不违背社会道德,而且是为了方便用户,因此具有社会可行性。