銳研·云文析:文本分析和挖掘系統
- 2016-02-06
- 萌泰科技
一、概述
銳研文本分析和挖掘系統(Ring BigResearch TextAnalyzer)是一套基于自然語言處理(NLP)技術的文本分析和挖掘軟件,支持對文本進行內容分析,利用自然語言處理(NLP)對文本進行分詞,詞性標注和詞頻統計。平臺可集成中文處理引擎和多種文本分析算法,支持結合系統和用戶自定義的詞匯字典庫進行各類詞頻分析、情感分析、實體抽取、短語抽取、文本分類、文本聚類、主題模型、詞向量分析、共現分析、事件分析等。
二、產品功能
1、系統集成
作為子系統能集成到統一的云管理平臺,共享云平臺的統一用戶管理功能。
2、文本庫管理
提供對分析文本庫的統一管理,包括建立文本庫的子文本庫管理;支持對文本進行快速的統計分析,可根據數據源、日期等條件對所有文本進行數量統計。
3、數據導入
支持數據從文件導入,從云采集平臺導入和從文本數據庫直接導入。
4、數據清洗
提供對文本庫的文本的可視化增刪改查處理,支持數據去重和數據替換。
5、文本分詞
利用自然語言處理(NLP)分詞算法對文本進行分詞,詞性標注;支持選擇不同的分詞算法;支持系統和用戶自定義的詞匯字典庫。
6、詞頻統計
支持對文本進行詞頻統計;可根據詞性篩選關鍵詞或自定義關鍵詞生成詞云圖。
7、文本分類
根據一個訓練集,對新的文本進行數據分類,提供對分類訓練集的管理;集成貝葉斯分類 ,BP神經網絡分類 , CNN深度學習分類等分類算法。
8、文本聚類
在沒有訓練集的情況下,根據算法對所有文本進行聚類分析,集成K-means聚類,DBSCAN聚類,聚合聚類,BIRCH聚類,Mini-batch聚類,均值漂移聚類,光譜聚類,高斯混合聚類,ISODATA聚類等聚類算法。
9、情感分析
支持根據情感字典庫來判斷某一個文章的正負情感,集成常用的中文情感詞典。
10、詞向量分析
基礎詞向量分析模型,能夠對給定的文本集進行詞向量分析,可以實時查詢分析結果和可視化呈現。
11、主題分析
集成LDA主題分析模型,能夠自動對給定的文本集進行主題建模,支持自動推薦最優主題數。
12、自動編碼
能夠自動根據文本的關鍵詞規則為文本進行自動編碼。
13、短語抽取
可根據詞性權重,長度權重,主題突出權重等提取出文本中的短語,并進行頻次統計。
14、詞共現網絡
能夠對給定的文本分析一組詞的共現概率,生成詞共現網絡圖。
15、事件提取
能夠根據事件詞典庫提取文本中的核心事件,并進行統計;支持用戶自定義事件詞典庫;事件包括事件分類、參與者、時間、地點等屬性。
三、特色和優勢
強大的數據處理
- 數據清洗:去重、替換、篩選、排序
- 數據組合:分割、聚合、聯合、合并
- 數據計算:函數、取樣
- 數據預處理:編碼、分詞、向量化
靈活的分析配置
- 自定義算法和模型參數
- 內置豐富的分析模板
- 智能化參數推薦
豐富的可視化圖表
- 更豐富的可視化方式
- 分析結果頁面自定義布局
- 以鏈接方式分享分析結果
全新的圖形化建模
- 全面支持自定義分析流程
- 通過拖動任務模塊,輕松構筑復雜的文本處理和分析流程
四、產品體驗
點擊這里體驗 銳研云文析 的全部功能。
