使用tagxedo制作词云图

2014-04-04 21:41:06
词云图包括两部分,数据和展示方式,所以,要制作词云图,我们必须要有一堆关键词以及每个词的权重,然后再找个工具,把我们的词生成词云图。 今天就给大家介绍这个工具tagxedo,其实就是个网站
今天教大家如何制作词云图,词云也可以叫标签云,英文是word cloud或者tag cloud。

词云图包括两部分,数据和展示方式。

数据也包括两部分,最主要的是关键词或者说标签,这个一定要有,另外不同的关键词可能会有不同的权重,有的词重要一些,有的词不是那么重要,体现在词云图上就是有的词大一些,有的词小一些,或者有的词颜色深一些,有的词颜色浅一些。
关于权重,最简单的方式就是计算词频(Term Frequency),在一篇或多篇文章中,出现次数多的词权重就高,
当然再进一步的可以有TF-IDF等计算权重的方法。

展示方式也有很多种,比较常见的展示特征包括 关键词的方向,是水平的、垂直的还是斜的, 颜色,字体,轮廓等等。

所以,要制作词云图,我们必须要有一堆关键词以及每个词的权重,

然后再找个工具,把我们的词生成词云图。

今天给大家介绍的网站是 www.tagxedo.com ,一家国外的网站,难能可贵的是支持中文文章。
这个网站能够帮我们把上面的两部分都给处理好,也就是说我们只要准备好文本,它就能够给我们进行中文分词、词频统计、生成各种词云图,非常的简单、方便、实用。


我们先看个例子,是不是很酷呢?


从新媒体的角度讲,我们可以把词云图看成是一种数据的可视化表现方式,

甚至可以看成是一种数据新闻(Data Journalism)。


词云图的制作也遵循数据新闻的生产流程,数据的收集--》数据的整理--》数据的分析--》数据的提炼--》数据的可视化,当然这个流程可简单、可复杂。


下面我们以最近各大军区领导集体发表拥护习主席的文章为例,使用tagxedo制作一个词云图,看看将军们的文章里都说了些什么。

将军们的文章可以从网上找到,这里有个地址 http://mil.news.sina.com.cn/2014-04-02/1452771999.html

1、我们把将军们的讲话拷贝下来,保存在一个单独的文本文件里。

2、打开tagxedo网站 www.tagxedo.com,选择create,开始制作
tagxedo需要微软silverlight的支持,如果你看不到这个界面,可能需要先安装一下silverlight插件。 silverlight是微软用来对付adobe flash的。 


3、打开Load菜单, 把我们的文章复制进来,然后submit进行提交。


4、提交之后,现在我们应该能看到系统为我们生成的词云图了,只是还有一些问题,比如“的”、“是”、“要”、“和”、“在”这些连词、介词等很大,虽然它们出现了很多次,但是它们基本上没什么意义,我们想忽略掉这些词。
在中文分词术语中,我们通常叫这些词为停用词,英文是stopword。


5、去除停用词,也就是这些“是”、“的”,包括其他一些你不想出现的词。
从左侧的word|layout option菜单进去,选择skip子菜单,可以看到下面的图

这是tagxedo为你分好词、统计好词频的结果,如果你不想要其中的词,就单击一下,变成skip,也就是忽略该词。
然后点击底部的“Accept”,现在词云图里就没有这些停用词了。


6、下面就可以美化我们的词云图了,tagxedo为我们提供了很多的美化方式,主要都是在左侧的respins菜单中。

包括 color(颜色)、theme(主题)、font(文字字体)、orientation(文字的方向)、layout(布局)

大家可以挨个试试。


7、tagxedo也为我们提供了更改显示轮廓的功能,比如上图就是以一颗树的形状来展示。

选择Option->shape菜单, tagxedo为我们提供了很多默认的形状,如果这些形状无法满足你的需求,你可以上传自己的轮廓形状图片。


比如,我们上传一个五角星形状,那么我们的词云图就变成这样



感兴趣的朋友,可以自己动手试一下,再也不用羡慕别人的了。