notebook.community

Edit and run



In [30]:

    
import numpy as np #linear algebra
import pandas as pd #data processing, CSV file I/O (e.g. pd.read_csv)
import csv #read data



In [31]:

    
"Read Data"
with open('train_dm.csv', 'r') as data:
    row = csv.DictReader(data, ',')
    for entry in row:
        print(entry)
        break









    



{',': 'id', None: ['product_uid', 'product_title', 'search_term', 'relevance']}



In [35]:

    
"Converter"
'''
import json
csvfile = open('train_dm.csv', 'r')
jsonfile = open('train_dm.json', 'w')
fieldnames = ("id", "product_uid", "product_title", "search_term")
reader = csv.DictReader(csvfile, fieldnames)
for row in reader:
    json.dumps(row, jsonfile)
    jsonfile.write('\n')
'''









    Out[35]:





'\nimport json\ncsvfile = open(\'train_dm.csv\', \'r\')\njsonfile = open(\'train_dm.json\', \'w\')\nfieldnames = ("id", "product_uid", "product_title", "search_term")\nreader = csv.DictReader(csvfile, fieldnames)\nfor row in reader:\n    json.dumps(row, jsonfile)\n    jsonfile.write(\'\n\')\n'



In [36]:

    
data = pd.read_csv('train_dm.csv', sep=',', na_values='.') #read csv file, seperated by ;, na values exists
data #show data









    



---------------------------------------------------------------------------
UnicodeDecodeError                        Traceback (most recent call last)
<ipython-input-36-210d3f721784> in <module>()
----> 1 data = pd.read_csv('train_dm.csv', sep=',', na_values='.') #read csv file, seperated by ;, na values exists
      2 data #show data

C:\Users\smas-\Anaconda3\lib\site-packages\pandas\io\parsers.py in parser_f(filepath_or_buffer, sep, dialect, compression, doublequote, escapechar, quotechar, quoting, skipinitialspace, lineterminator, header, index_col, names, prefix, skiprows, skipfooter, skip_footer, na_values, true_values, false_values, delimiter, converters, dtype, usecols, engine, delim_whitespace, as_recarray, na_filter, compact_ints, use_unsigned, low_memory, buffer_lines, warn_bad_lines, error_bad_lines, keep_default_na, thousands, comment, decimal, parse_dates, keep_date_col, dayfirst, date_parser, memory_map, float_precision, nrows, iterator, chunksize, verbose, encoding, squeeze, mangle_dupe_cols, tupleize_cols, infer_datetime_format, skip_blank_lines)
    496                     skip_blank_lines=skip_blank_lines)
    497 
--> 498         return _read(filepath_or_buffer, kwds)
    499 
    500     parser_f.__name__ = name

C:\Users\smas-\Anaconda3\lib\site-packages\pandas\io\parsers.py in _read(filepath_or_buffer, kwds)
    283         return parser
    284 
--> 285     return parser.read()
    286 
    287 _parser_defaults = {

C:\Users\smas-\Anaconda3\lib\site-packages\pandas\io\parsers.py in read(self, nrows)
    745                 raise ValueError('skip_footer not supported for iteration')
    746 
--> 747         ret = self._engine.read(nrows)
    748 
    749         if self.options.get('as_recarray'):

C:\Users\smas-\Anaconda3\lib\site-packages\pandas\io\parsers.py in read(self, nrows)
   1195     def read(self, nrows=None):
   1196         try:
-> 1197             data = self._reader.read(nrows)
   1198         except StopIteration:
   1199             if self._first_chunk:

pandas\parser.pyx in pandas.parser.TextReader.read (pandas\parser.c:7988)()

pandas\parser.pyx in pandas.parser.TextReader._read_low_memory (pandas\parser.c:8244)()

pandas\parser.pyx in pandas.parser.TextReader._read_rows (pandas\parser.c:9261)()

pandas\parser.pyx in pandas.parser.TextReader._convert_column_data (pandas\parser.c:10654)()

pandas\parser.pyx in pandas.parser.TextReader._convert_tokens (pandas\parser.c:11540)()

pandas\parser.pyx in pandas.parser.TextReader._convert_with_dtype (pandas\parser.c:12976)()

pandas\parser.pyx in pandas.parser.TextReader._string_convert (pandas\parser.c:13222)()

pandas\parser.pyx in pandas.parser._string_box_utf8 (pandas\parser.c:18598)()

UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 30-31: invalid continuation byte



In [ ]: