{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import pandas as pd" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [], "source": [ "df = pd.read_csv(\"../fixtures/cluster_title_normalized_dups_size_keylen.tsv\", sep=\"\\t\", names=[\"size\", \"len\"])" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "5818143" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "source": [ "len(df)" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", " | size | \n", "len | \n", "
---|---|---|
0 | \n", "264 | \n", "0 | \n", "
1 | \n", "2 | \n", "3 | \n", "
2 | \n", "2 | \n", "3 | \n", "
3 | \n", "2 | \n", "3 | \n", "
4 | \n", "2 | \n", "4 | \n", "
\n", " | size | \n", "len | \n", "
---|---|---|
0 | \n", "264 | \n", "0 | \n", "
187 | \n", "5 | \n", "1 | \n", "
276 | \n", "28 | \n", "11 | \n", "
284 | \n", "7 | \n", "6 | \n", "
288 | \n", "6 | \n", "6 | \n", "
... | \n", "... | \n", "... | \n", "
5818054 | \n", "7 | \n", "2 | \n", "
5818060 | \n", "6 | \n", "4 | \n", "
5818104 | \n", "6 | \n", "2 | \n", "
5818118 | \n", "5 | \n", "4 | \n", "
5818128 | \n", "13 | \n", "4 | \n", "
448170 rows × 2 columns
\n", "\n", " | size | \n", "len | \n", "
---|---|---|
0 | \n", "264 | \n", "0 | \n", "
276 | \n", "28 | \n", "11 | \n", "
314 | \n", "195 | \n", "15 | \n", "
329 | \n", "10 | \n", "14 | \n", "
364 | \n", "98 | \n", "15 | \n", "
... | \n", "... | \n", "... | \n", "
5817734 | \n", "18 | \n", "5 | \n", "
5817835 | \n", "11 | \n", "4 | \n", "
5817886 | \n", "20 | \n", "5 | \n", "
5817901 | \n", "15 | \n", "10 | \n", "
5818128 | \n", "13 | \n", "4 | \n", "
159500 rows × 2 columns
\n", "\n", " | size | \n", "len | \n", "
---|---|---|
0 | \n", "264 | \n", "0 | \n", "
314 | \n", "195 | \n", "15 | \n", "
428 | \n", "122 | \n", "31 | \n", "
525 | \n", "173 | \n", "28 | \n", "
727 | \n", "270 | \n", "31 | \n", "
... | \n", "... | \n", "... | \n", "
5816100 | \n", "147 | \n", "4 | \n", "
5817345 | \n", "167 | \n", "2 | \n", "
5817361 | \n", "258 | \n", "2 | \n", "
5817366 | \n", "298 | \n", "2 | \n", "
5817374 | \n", "252 | \n", "2 | \n", "
9610 rows × 2 columns
\n", "