OpenRefine中文版下载(数据清洗工具)_OpenRefine免费版下载
《OpenRefine中文版》是一款功能强大全面的系统优化工具,软件轻松对本地电脑上的垃圾文件和缓存内容尽兴清理,给电脑系统瘦瘦身,知识兔支持就是检查数据库中无用和错误的地方然后知识兔进行修正,知识兔支持残缺数据、错误数据以及重复数据的搜索和清洗,软件界面简洁直观、没有过多的操作功能,可通过可视化的方式分析和整理数据,知识兔可以直观的感受系统优化的过程,同时还可以将整个电脑中的文件夹整理成表格进行分析,功能强大。
OpenRefine中文版优势:
1、数据剖析Data Profiling:也叫做数据考古(Data Archeology),是数据集(Data Set)内部为达一致性、单值性和逻辑性而进行的数值质量的统计分析及评估。数据剖析是Olson于2003年提出的概念,知识兔使用分析技术来发现正确的、结构化的、有内容、有质量的数据。换句话说,它是评估你的数据和信息的当前状态以及包含了多少错误的方法。
2、数据清洗Data Cleaning:是尝试通过移除空的数据行或重复的数据行、过滤数据行、聚集或转换数据值、分开多值单元等,知识兔以半自动化的方式修复错误数据的过程。数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,知识兔解决问题。对于是否过滤,是否修正一般要求客户确认。
3、IDTs:Interactive Data Transformation tools,交互数据转换工具,它可以对大数据进行快速、廉价的操作,知识兔使用单个的集成接口。
4、OpenRefine 就是这样的IDT工具,知识兔可以观察和操纵数据的工具。它类似于传统Excel的表格处理软件,但是工作方式更像是数据库,知识兔以列和字段的方式工作,而不是以单元格的方式工作。这意味着OpenRefine不仅适合对新的行数据进行编码,而且知识兔功能还极为强大。
OpenRefine中文版使用说明:
首先知识兔得载入数据文件
打开Open Refine, 知识兔点击屏幕左侧的鈥溞陆ㄏ钅库€ (Create Project)
先知识兔点击鈥溦馓ǖ缒遭€ (This Computer),然后知识兔知识兔点击鈥溠≡裎募€?Choose Files)。在你的数据文件中选择UniversityData.csv。你就会看到数据。
该文件中有些中文文字(列的名字)。如果知识兔中文显示不对,你也许需要告诉Open Refine使用正确的字符集。要做到这一点,知识兔点击鈥溩址嗦脞€ (Character encoding) 旁边的空白空间,知识兔从中选择UTF-8。
然后知识兔知识兔点击右边的鈥溞陆ㄏ钅库€ (Create Project) 键。
你可以看到country (鈥湽意€?这一列中, 国家名字不统一。例如,美国即叫 United States,也叫USA。知识兔要通过创立一个文字归类, 让Open Refine 给知识兔看 country 一列中所有的值。摁下 country 旁边的小下箭头,知识兔选择 归类 Facet -> 文本归类 Text Facet。
片刻后,该归类中所有国家的值就会在屏幕左侧显示出来。
你可以看到美国有多个不同叫法, 还有一些错误的名字,比如有一行美国叫United States ), 还有一个捏造的国家叫Utopia(乌托邦)!每个不同的国家名叫一个归类, Open Refine 给你显示了每一个归类里有多少行数据。
知识兔点击任何归类名字,你会只看到那个归类里的行。在知识兔这个例子里,你只会看到那些国家列里数据和你知识兔点击的名字相符的行。
你只要知识兔点击任何一个归类名,就能对其进行编辑。现在知识兔来把美国所有不同的叫法都变成United States。你鼠标指向 US 这一归类时,一个的鈥湵嗉€漞dit 选项就会出现。知识兔点击该 编辑 edit。
下载仅供下载体验和测试学习,不得商用和正当使用。