import jieba
from jieba import analyse

# jieba分词器
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("全模式:" + "/".join(seg_list))  # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("精确模式:" + "/".join(seg_list))  # 精确模式
seg_list = jieba.cut("我来到北京清华大学")
print("默认精确模式:" + "/".join(seg_list))  # 默认精确模式

# 加词典
text = "故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等"
jieba.add_word("乾清宫")
print("精确模式:" + "/".join(jieba.cut(text)))  # 精确模式

# 关键词的抽取
seg_list = jieba.cut(text, cut_all=False)
print (u"分词结果:")
print("/".join(seg_list))
# 获取关键词
tags = jieba.analyse.extract_tags(text, topK=5)
print(u"关键词:")
print(" ".join(tags))
# 获取关键词带权重
tags = jieba.analyse.extract_tags(text, topK=5, withWeight=True)
for word, weight in tags:
    print(word, weight)